zephyr-7b-beta_a13650682763.../trainer_state.json

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 100,
  "global_step": 5811,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 8.591065292096219e-10,
      "logits/chosen": -2.5129990577697754,
      "logits/rejected": -2.4275057315826416,
      "logps/chosen": -96.6673583984375,
      "logps/rejected": -105.15755462646484,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.01,
      "learning_rate": 8.59106529209622e-09,
      "logits/chosen": -2.988718271255493,
      "logits/rejected": -2.9780874252319336,
      "logps/chosen": -302.4128723144531,
      "logps/rejected": -225.56951904296875,
      "loss": 0.6947,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.007120599504560232,
      "rewards/margins": -0.004252635408192873,
      "rewards/rejected": -0.002867964096367359,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 1.718213058419244e-08,
      "logits/chosen": -2.8921194076538086,
      "logits/rejected": -2.7121551036834717,
      "logps/chosen": -287.7423400878906,
      "logps/rejected": -217.6292724609375,
      "loss": 0.6906,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": 0.0037767409812659025,
      "rewards/margins": 0.010759315453469753,
      "rewards/rejected": -0.006982574705034494,
      "step": 20
    },
    {
      "epoch": 0.02,
      "learning_rate": 2.5773195876288656e-08,
      "logits/chosen": -3.015655994415283,
      "logits/rejected": -2.9962334632873535,
      "logps/chosen": -297.9928283691406,
      "logps/rejected": -203.88180541992188,
      "loss": 0.6891,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.025857295840978622,
      "rewards/margins": 0.025261688977479935,
      "rewards/rejected": 0.0005956076784059405,
      "step": 30
    },
    {
      "epoch": 0.02,
      "learning_rate": 3.436426116838488e-08,
      "logits/chosen": -2.8478853702545166,
      "logits/rejected": -2.9214625358581543,
      "logps/chosen": -267.7845153808594,
      "logps/rejected": -250.1910400390625,
      "loss": 0.6861,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.027253543958067894,
      "rewards/margins": 0.02428315207362175,
      "rewards/rejected": 0.002970390487462282,
      "step": 40
    },
    {
      "epoch": 0.03,
      "learning_rate": 4.29553264604811e-08,
      "logits/chosen": -3.0094895362854004,
      "logits/rejected": -2.9605789184570312,
      "logps/chosen": -322.73681640625,
      "logps/rejected": -245.77450561523438,
      "loss": 0.6839,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.022152891382575035,
      "rewards/margins": 0.04998321458697319,
      "rewards/rejected": -0.027830326929688454,
      "step": 50
    },
    {
      "epoch": 0.03,
      "learning_rate": 5.154639175257731e-08,
      "logits/chosen": -2.9751992225646973,
      "logits/rejected": -2.9595389366149902,
      "logps/chosen": -308.54351806640625,
      "logps/rejected": -224.53707885742188,
      "loss": 0.6688,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.04110954329371452,
      "rewards/margins": 0.11852701753377914,
      "rewards/rejected": -0.07741747796535492,
      "step": 60
    },
    {
      "epoch": 0.04,
      "learning_rate": 6.013745704467354e-08,
      "logits/chosen": -2.9823076725006104,
      "logits/rejected": -3.0206565856933594,
      "logps/chosen": -375.16925048828125,
      "logps/rejected": -224.032958984375,
      "loss": 0.6642,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.07654228806495667,
      "rewards/margins": 0.1424637734889984,
      "rewards/rejected": -0.06592147052288055,
      "step": 70
    },
    {
      "epoch": 0.04,
      "learning_rate": 6.872852233676976e-08,
      "logits/chosen": -3.0697617530822754,
      "logits/rejected": -3.036527156829834,
      "logps/chosen": -353.6755676269531,
      "logps/rejected": -216.9717559814453,
      "loss": 0.6418,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.04413590952754021,
      "rewards/margins": 0.10847017914056778,
      "rewards/rejected": -0.06433425843715668,
      "step": 80
    },
    {
      "epoch": 0.05,
      "learning_rate": 7.731958762886598e-08,
      "logits/chosen": -2.9876997470855713,
      "logits/rejected": -2.9616377353668213,
      "logps/chosen": -291.57012939453125,
      "logps/rejected": -193.0994873046875,
      "loss": 0.6367,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.08899353444576263,
      "rewards/margins": 0.24147820472717285,
      "rewards/rejected": -0.1524846851825714,
      "step": 90
    },
    {
      "epoch": 0.05,
      "learning_rate": 8.59106529209622e-08,
      "logits/chosen": -2.8401777744293213,
      "logits/rejected": -2.7715401649475098,
      "logps/chosen": -261.7100524902344,
      "logps/rejected": -255.4248046875,
      "loss": 0.6284,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.03916650265455246,
      "rewards/margins": 0.1420799195766449,
      "rewards/rejected": -0.10291342437267303,
      "step": 100
    },
    {
      "epoch": 0.05,
      "eval_logits/chosen": -2.823406934738159,
      "eval_logits/rejected": -2.797581672668457,
      "eval_logps/chosen": -253.8098907470703,
      "eval_logps/rejected": -258.8415832519531,
      "eval_loss": 0.6098471879959106,
      "eval_rewards/accuracies": 0.734375,
      "eval_rewards/chosen": 0.04252301901578903,
      "eval_rewards/margins": 0.22968964278697968,
      "eval_rewards/rejected": -0.18716664612293243,
      "eval_runtime": 58.4622,
      "eval_samples_per_second": 17.105,
      "eval_steps_per_second": 0.274,
      "step": 100
    },
    {
      "epoch": 0.06,
      "learning_rate": 9.450171821305841e-08,
      "logits/chosen": -3.0175564289093018,
      "logits/rejected": -3.084195137023926,
      "logps/chosen": -344.5015869140625,
      "logps/rejected": -294.0466613769531,
      "loss": 0.6208,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.07540851831436157,
      "rewards/margins": 0.3283361792564392,
      "rewards/rejected": -0.25292766094207764,
      "step": 110
    },
    {
      "epoch": 0.06,
      "learning_rate": 1.0309278350515462e-07,
      "logits/chosen": -2.831212043762207,
      "logits/rejected": -2.7832601070404053,
      "logps/chosen": -184.1349639892578,
      "logps/rejected": -206.84634399414062,
      "loss": 0.587,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.06816364824771881,
      "rewards/margins": 0.0881614089012146,
      "rewards/rejected": -0.1563250720500946,
      "step": 120
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.1168384879725086e-07,
      "logits/chosen": -3.0061099529266357,
      "logits/rejected": -2.8498525619506836,
      "logps/chosen": -333.06072998046875,
      "logps/rejected": -189.4818115234375,
      "loss": 0.5832,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.19702570140361786,
      "rewards/margins": 0.5247530341148376,
      "rewards/rejected": -0.3277273178100586,
      "step": 130
    },
    {
      "epoch": 0.07,
      "learning_rate": 1.202749140893471e-07,
      "logits/chosen": -2.8609023094177246,
      "logits/rejected": -2.77339243888855,
      "logps/chosen": -297.0363464355469,
      "logps/rejected": -242.37255859375,
      "loss": 0.5649,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.016815107315778732,
      "rewards/margins": 0.422064870595932,
      "rewards/rejected": -0.40524977445602417,
      "step": 140
    },
    {
      "epoch": 0.08,
      "learning_rate": 1.2886597938144328e-07,
      "logits/chosen": -3.088327407836914,
      "logits/rejected": -2.9465346336364746,
      "logps/chosen": -305.6724548339844,
      "logps/rejected": -314.7848205566406,
      "loss": 0.5548,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.12263361364603043,
      "rewards/margins": 0.6976320147514343,
      "rewards/rejected": -0.5749984979629517,
      "step": 150
    },
    {
      "epoch": 0.08,
      "learning_rate": 1.3745704467353952e-07,
      "logits/chosen": -2.883831024169922,
      "logits/rejected": -2.8376777172088623,
      "logps/chosen": -267.89154052734375,
      "logps/rejected": -199.8636474609375,
      "loss": 0.5362,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.17647962272167206,
      "rewards/margins": 0.5636450052261353,
      "rewards/rejected": -0.387165367603302,
      "step": 160
    },
    {
      "epoch": 0.09,
      "learning_rate": 1.4604810996563573e-07,
      "logits/chosen": -2.823948383331299,
      "logits/rejected": -2.7283661365509033,
      "logps/chosen": -234.5882568359375,
      "logps/rejected": -194.86480712890625,
      "loss": 0.4987,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.09966392815113068,
      "rewards/margins": 0.7896274328231812,
      "rewards/rejected": -0.6899635791778564,
      "step": 170
    },
    {
      "epoch": 0.09,
      "learning_rate": 1.5463917525773197e-07,
      "logits/chosen": -2.9629111289978027,
      "logits/rejected": -2.9428882598876953,
      "logps/chosen": -232.97244262695312,
      "logps/rejected": -183.2829132080078,
      "loss": 0.5185,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.2645714282989502,
      "rewards/margins": 0.8501029014587402,
      "rewards/rejected": -0.5855314135551453,
      "step": 180
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.6323024054982818e-07,
      "logits/chosen": -2.9642796516418457,
      "logits/rejected": -2.97268009185791,
      "logps/chosen": -275.6226501464844,
      "logps/rejected": -233.35537719726562,
      "loss": 0.5748,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.1616288721561432,
      "rewards/margins": 0.4936322569847107,
      "rewards/rejected": -0.3320034146308899,
      "step": 190
    },
    {
      "epoch": 0.1,
      "learning_rate": 1.718213058419244e-07,
      "logits/chosen": -2.9080729484558105,
      "logits/rejected": -2.9043314456939697,
      "logps/chosen": -282.22369384765625,
      "logps/rejected": -235.44992065429688,
      "loss": 0.4908,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.13387183845043182,
      "rewards/margins": 0.7095439434051514,
      "rewards/rejected": -0.5756720900535583,
      "step": 200
    },
    {
      "epoch": 0.1,
      "eval_logits/chosen": -2.7959609031677246,
      "eval_logits/rejected": -2.7718665599823,
      "eval_logps/chosen": -254.51446533203125,
      "eval_logps/rejected": -263.8123779296875,
      "eval_loss": 0.5425560474395752,
      "eval_rewards/accuracies": 0.75,
      "eval_rewards/chosen": -0.027933437377214432,
      "eval_rewards/margins": 0.6563125252723694,
      "eval_rewards/rejected": -0.6842460036277771,
      "eval_runtime": 58.0136,
      "eval_samples_per_second": 17.237,
      "eval_steps_per_second": 0.276,
      "step": 200
    },
    {
      "epoch": 0.11,
      "learning_rate": 1.804123711340206e-07,
      "logits/chosen": -2.664795160293579,
      "logits/rejected": -2.427393674850464,
      "logps/chosen": -297.56488037109375,
      "logps/rejected": -226.8320770263672,
      "loss": 0.5682,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.22673270106315613,
      "rewards/margins": 0.919518768787384,
      "rewards/rejected": -1.1462514400482178,
      "step": 210
    },
    {
      "epoch": 0.11,
      "learning_rate": 1.8900343642611682e-07,
      "logits/chosen": -2.8164966106414795,
      "logits/rejected": -2.7533140182495117,
      "logps/chosen": -316.3358459472656,
      "logps/rejected": -248.8792724609375,
      "loss": 0.5418,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.2400936633348465,
      "rewards/margins": 0.5202454924583435,
      "rewards/rejected": -0.7603391408920288,
      "step": 220
    },
    {
      "epoch": 0.12,
      "learning_rate": 1.9759450171821303e-07,
      "logits/chosen": -2.8455495834350586,
      "logits/rejected": -2.815950870513916,
      "logps/chosen": -291.536376953125,
      "logps/rejected": -252.3511199951172,
      "loss": 0.516,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.05435393005609512,
      "rewards/margins": 0.677357017993927,
      "rewards/rejected": -0.7317109107971191,
      "step": 230
    },
    {
      "epoch": 0.12,
      "learning_rate": 2.0618556701030925e-07,
      "logits/chosen": -2.884962558746338,
      "logits/rejected": -2.9899585247039795,
      "logps/chosen": -362.83612060546875,
      "logps/rejected": -246.82815551757812,
      "loss": 0.5416,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.4428789019584656,
      "rewards/margins": 0.2312956303358078,
      "rewards/rejected": -0.6741746068000793,
      "step": 240
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.1477663230240549e-07,
      "logits/chosen": -2.979492425918579,
      "logits/rejected": -2.9899439811706543,
      "logps/chosen": -232.15756225585938,
      "logps/rejected": -157.3478240966797,
      "loss": 0.5141,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.26762503385543823,
      "rewards/margins": 1.1515061855316162,
      "rewards/rejected": -0.8838812112808228,
      "step": 250
    },
    {
      "epoch": 0.13,
      "learning_rate": 2.2336769759450173e-07,
      "logits/chosen": -3.0052077770233154,
      "logits/rejected": -2.9878716468811035,
      "logps/chosen": -309.3619689941406,
      "logps/rejected": -189.45968627929688,
      "loss": 0.5321,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.4304015040397644,
      "rewards/margins": 1.0413486957550049,
      "rewards/rejected": -0.6109471917152405,
      "step": 260
    },
    {
      "epoch": 0.14,
      "learning_rate": 2.3195876288659794e-07,
      "logits/chosen": -2.8794291019439697,
      "logits/rejected": -2.831512928009033,
      "logps/chosen": -306.6054992675781,
      "logps/rejected": -237.39382934570312,
      "loss": 0.4909,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.18433420360088348,
      "rewards/margins": 0.8596351742744446,
      "rewards/rejected": -0.6753008365631104,
      "step": 270
    },
    {
      "epoch": 0.14,
      "learning_rate": 2.405498281786942e-07,
      "logits/chosen": -2.9824016094207764,
      "logits/rejected": -2.9367408752441406,
      "logps/chosen": -350.133056640625,
      "logps/rejected": -254.4954071044922,
      "loss": 0.5336,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.20658831298351288,
      "rewards/margins": 0.7473801374435425,
      "rewards/rejected": -0.5407918691635132,
      "step": 280
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.4914089347079036e-07,
      "logits/chosen": -2.7565178871154785,
      "logits/rejected": -2.944960832595825,
      "logps/chosen": -242.48397827148438,
      "logps/rejected": -227.69107055664062,
      "loss": 0.5056,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.699475109577179,
      "rewards/margins": 1.3677313327789307,
      "rewards/rejected": -0.6682561635971069,
      "step": 290
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.5773195876288655e-07,
      "logits/chosen": -2.779125928878784,
      "logits/rejected": -2.943162679672241,
      "logps/chosen": -411.8221130371094,
      "logps/rejected": -222.3397216796875,
      "loss": 0.5264,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.34889036417007446,
      "rewards/margins": 1.2339386940002441,
      "rewards/rejected": -0.8850483894348145,
      "step": 300
    },
    {
      "epoch": 0.15,
      "eval_logits/chosen": -2.812185525894165,
      "eval_logits/rejected": -2.789177656173706,
      "eval_logps/chosen": -253.82086181640625,
      "eval_logps/rejected": -266.7626953125,
      "eval_loss": 0.5323615670204163,
      "eval_rewards/accuracies": 0.765625,
      "eval_rewards/chosen": 0.04142449051141739,
      "eval_rewards/margins": 1.0207018852233887,
      "eval_rewards/rejected": -0.9792775511741638,
      "eval_runtime": 59.6543,
      "eval_samples_per_second": 16.763,
      "eval_steps_per_second": 0.268,
      "step": 300
    },
    {
      "epoch": 0.16,
      "learning_rate": 2.663230240549828e-07,
      "logits/chosen": -2.9955785274505615,
      "logits/rejected": -2.9795451164245605,
      "logps/chosen": -318.2289123535156,
      "logps/rejected": -216.7342071533203,
      "loss": 0.5172,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.10595469176769257,
      "rewards/margins": 1.0604875087738037,
      "rewards/rejected": -0.9545329213142395,
      "step": 310
    },
    {
      "epoch": 0.17,
      "learning_rate": 2.7491408934707903e-07,
      "logits/chosen": -2.9341654777526855,
      "logits/rejected": -2.9966204166412354,
      "logps/chosen": -379.42572021484375,
      "logps/rejected": -282.17291259765625,
      "loss": 0.4682,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.08291205763816833,
      "rewards/margins": 1.1605613231658936,
      "rewards/rejected": -1.0776493549346924,
      "step": 320
    },
    {
      "epoch": 0.17,
      "learning_rate": 2.835051546391752e-07,
      "logits/chosen": -2.8474197387695312,
      "logits/rejected": -2.844364643096924,
      "logps/chosen": -331.90802001953125,
      "logps/rejected": -223.3518524169922,
      "loss": 0.4881,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.02964567206799984,
      "rewards/margins": 1.4632409811019897,
      "rewards/rejected": -1.4928867816925049,
      "step": 330
    },
    {
      "epoch": 0.18,
      "learning_rate": 2.9209621993127146e-07,
      "logits/chosen": -2.68745756149292,
      "logits/rejected": -2.817155361175537,
      "logps/chosen": -232.6031036376953,
      "logps/rejected": -246.84768676757812,
      "loss": 0.5196,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5186244249343872,
      "rewards/margins": 1.0158860683441162,
      "rewards/rejected": -0.49726182222366333,
      "step": 340
    },
    {
      "epoch": 0.18,
      "learning_rate": 3.006872852233677e-07,
      "logits/chosen": -3.0304269790649414,
      "logits/rejected": -2.9698691368103027,
      "logps/chosen": -159.0189208984375,
      "logps/rejected": -212.7183380126953,
      "loss": 0.4873,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.310208797454834,
      "rewards/margins": 0.5256294012069702,
      "rewards/rejected": -0.8358383178710938,
      "step": 350
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.0927835051546394e-07,
      "logits/chosen": -3.0391955375671387,
      "logits/rejected": -3.0694854259490967,
      "logps/chosen": -381.39715576171875,
      "logps/rejected": -347.92559814453125,
      "loss": 0.4607,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.43349432945251465,
      "rewards/margins": 1.4752476215362549,
      "rewards/rejected": -1.0417532920837402,
      "step": 360
    },
    {
      "epoch": 0.19,
      "learning_rate": 3.178694158075601e-07,
      "logits/chosen": -2.985565662384033,
      "logits/rejected": -2.951699733734131,
      "logps/chosen": -158.28598022460938,
      "logps/rejected": -127.53106689453125,
      "loss": 0.4825,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.025753701105713844,
      "rewards/margins": 1.3051038980484009,
      "rewards/rejected": -1.330857515335083,
      "step": 370
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.2646048109965636e-07,
      "logits/chosen": -2.8883204460144043,
      "logits/rejected": -2.7797765731811523,
      "logps/chosen": -300.84283447265625,
      "logps/rejected": -306.0265197753906,
      "loss": 0.5606,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.03248428553342819,
      "rewards/margins": 0.8653362393379211,
      "rewards/rejected": -0.8328520655632019,
      "step": 380
    },
    {
      "epoch": 0.2,
      "learning_rate": 3.3505154639175255e-07,
      "logits/chosen": -2.8869693279266357,
      "logits/rejected": -2.8558154106140137,
      "logps/chosen": -295.94268798828125,
      "logps/rejected": -245.67544555664062,
      "loss": 0.4789,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.0472743920981884,
      "rewards/margins": 1.3127429485321045,
      "rewards/rejected": -1.2654683589935303,
      "step": 390
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.436426116838488e-07,
      "logits/chosen": -3.0791659355163574,
      "logits/rejected": -3.0203123092651367,
      "logps/chosen": -251.6421661376953,
      "logps/rejected": -219.4331512451172,
      "loss": 0.5536,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.3093084990978241,
      "rewards/margins": 0.4000861644744873,
      "rewards/rejected": -0.7093946933746338,
      "step": 400
    },
    {
      "epoch": 0.21,
      "eval_logits/chosen": -2.8764305114746094,
      "eval_logits/rejected": -2.8541693687438965,
      "eval_logps/chosen": -254.42034912109375,
      "eval_logps/rejected": -272.24603271484375,
      "eval_loss": 0.4957379102706909,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -0.01852385140955448,
      "eval_rewards/margins": 1.5090851783752441,
      "eval_rewards/rejected": -1.5276089906692505,
      "eval_runtime": 56.3835,
      "eval_samples_per_second": 17.736,
      "eval_steps_per_second": 0.284,
      "step": 400
    },
    {
      "epoch": 0.21,
      "learning_rate": 3.5223367697594503e-07,
      "logits/chosen": -2.8821568489074707,
      "logits/rejected": -2.8333544731140137,
      "logps/chosen": -320.3736267089844,
      "logps/rejected": -205.11056518554688,
      "loss": 0.4277,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.0024402737617492676,
      "rewards/margins": 1.244533658027649,
      "rewards/rejected": -1.2420933246612549,
      "step": 410
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.608247422680412e-07,
      "logits/chosen": -2.9139723777770996,
      "logits/rejected": -2.8578293323516846,
      "logps/chosen": -301.2723693847656,
      "logps/rejected": -248.91744995117188,
      "loss": 0.5208,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.27292880415916443,
      "rewards/margins": 0.9970871210098267,
      "rewards/rejected": -1.2700159549713135,
      "step": 420
    },
    {
      "epoch": 0.22,
      "learning_rate": 3.6941580756013745e-07,
      "logits/chosen": -2.9251325130462646,
      "logits/rejected": -2.8964738845825195,
      "logps/chosen": -210.9687042236328,
      "logps/rejected": -185.3360137939453,
      "loss": 0.5229,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.43344053626060486,
      "rewards/margins": 0.8561422228813171,
      "rewards/rejected": -1.2895828485488892,
      "step": 430
    },
    {
      "epoch": 0.23,
      "learning_rate": 3.7800687285223364e-07,
      "logits/chosen": -2.901094436645508,
      "logits/rejected": -2.8542165756225586,
      "logps/chosen": -348.6666259765625,
      "logps/rejected": -329.27294921875,
      "loss": 0.6022,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.014251199550926685,
      "rewards/margins": 0.753572940826416,
      "rewards/rejected": -0.7393215298652649,
      "step": 440
    },
    {
      "epoch": 0.23,
      "learning_rate": 3.865979381443299e-07,
      "logits/chosen": -2.936382532119751,
      "logits/rejected": -2.9940216541290283,
      "logps/chosen": -308.2112731933594,
      "logps/rejected": -232.1812744140625,
      "loss": 0.504,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.3824332356452942,
      "rewards/margins": 0.28821295499801636,
      "rewards/rejected": -0.6706462502479553,
      "step": 450
    },
    {
      "epoch": 0.24,
      "learning_rate": 3.9518900343642607e-07,
      "logits/chosen": -2.951936960220337,
      "logits/rejected": -3.0050208568573,
      "logps/chosen": -326.07659912109375,
      "logps/rejected": -301.6195983886719,
      "loss": 0.5801,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.1851659119129181,
      "rewards/margins": 1.5346710681915283,
      "rewards/rejected": -1.349505066871643,
      "step": 460
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.037800687285223e-07,
      "logits/chosen": -2.8154656887054443,
      "logits/rejected": -2.8765406608581543,
      "logps/chosen": -320.0531311035156,
      "logps/rejected": -226.99124145507812,
      "loss": 0.4564,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.22784185409545898,
      "rewards/margins": 0.7857998013496399,
      "rewards/rejected": -1.013641595840454,
      "step": 470
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.123711340206185e-07,
      "logits/chosen": -3.0402634143829346,
      "logits/rejected": -3.021247625350952,
      "logps/chosen": -284.4671936035156,
      "logps/rejected": -287.5126647949219,
      "loss": 0.4915,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.03487253934144974,
      "rewards/margins": 0.45380640029907227,
      "rewards/rejected": -0.4886789321899414,
      "step": 480
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.209621993127148e-07,
      "logits/chosen": -2.9354074001312256,
      "logits/rejected": -2.920379638671875,
      "logps/chosen": -311.0786437988281,
      "logps/rejected": -246.13339233398438,
      "loss": 0.4588,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.48857221007347107,
      "rewards/margins": 0.9489312171936035,
      "rewards/rejected": -1.4375033378601074,
      "step": 490
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.2955326460481097e-07,
      "logits/chosen": -3.123109817504883,
      "logits/rejected": -3.0762407779693604,
      "logps/chosen": -309.3453063964844,
      "logps/rejected": -281.5166015625,
      "loss": 0.5362,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.25006183981895447,
      "rewards/margins": 1.4525038003921509,
      "rewards/rejected": -1.202441930770874,
      "step": 500
    },
    {
      "epoch": 0.26,
      "eval_logits/chosen": -2.8957557678222656,
      "eval_logits/rejected": -2.87016224861145,
      "eval_logps/chosen": -256.86529541015625,
      "eval_logps/rejected": -272.88690185546875,
      "eval_loss": 0.503109335899353,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -0.2630198001861572,
      "eval_rewards/margins": 1.3286765813827515,
      "eval_rewards/rejected": -1.5916962623596191,
      "eval_runtime": 55.3853,
      "eval_samples_per_second": 18.055,
      "eval_steps_per_second": 0.289,
      "step": 500
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.381443298969072e-07,
      "logits/chosen": -2.6036550998687744,
      "logits/rejected": -2.6383635997772217,
      "logps/chosen": -252.81375122070312,
      "logps/rejected": -243.0044708251953,
      "loss": 0.5633,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.6361426115036011,
      "rewards/margins": 0.3173540532588959,
      "rewards/rejected": -0.9534965753555298,
      "step": 510
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.4673539518900345e-07,
      "logits/chosen": -2.96708607673645,
      "logits/rejected": -3.0084481239318848,
      "logps/chosen": -186.54592895507812,
      "logps/rejected": -187.34884643554688,
      "loss": 0.5443,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.1140596866607666,
      "rewards/margins": 1.242305874824524,
      "rewards/rejected": -1.356365442276001,
      "step": 520
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.5532646048109964e-07,
      "logits/chosen": -2.987997531890869,
      "logits/rejected": -2.9607906341552734,
      "logps/chosen": -292.63690185546875,
      "logps/rejected": -240.1947479248047,
      "loss": 0.5091,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.1345333755016327,
      "rewards/margins": 1.3595573902130127,
      "rewards/rejected": -1.2250239849090576,
      "step": 530
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.639175257731959e-07,
      "logits/chosen": -2.8647749423980713,
      "logits/rejected": -2.868330955505371,
      "logps/chosen": -186.86167907714844,
      "logps/rejected": -243.17910766601562,
      "loss": 0.6201,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.7495313882827759,
      "rewards/margins": 0.6188509464263916,
      "rewards/rejected": -1.3683823347091675,
      "step": 540
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.7250859106529206e-07,
      "logits/chosen": -2.9979634284973145,
      "logits/rejected": -2.9638993740081787,
      "logps/chosen": -349.7961730957031,
      "logps/rejected": -288.20062255859375,
      "loss": 0.6153,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.04092409461736679,
      "rewards/margins": 1.4131947755813599,
      "rewards/rejected": -1.4541189670562744,
      "step": 550
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.810996563573884e-07,
      "logits/chosen": -3.0216901302337646,
      "logits/rejected": -3.0451061725616455,
      "logps/chosen": -326.0102844238281,
      "logps/rejected": -307.83367919921875,
      "loss": 0.539,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6230143904685974,
      "rewards/margins": 0.9213398098945618,
      "rewards/rejected": -1.5443540811538696,
      "step": 560
    },
    {
      "epoch": 0.29,
      "learning_rate": 4.896907216494845e-07,
      "logits/chosen": -2.990562677383423,
      "logits/rejected": -2.9301705360412598,
      "logps/chosen": -336.96826171875,
      "logps/rejected": -225.23599243164062,
      "loss": 0.5141,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.8188888430595398,
      "rewards/margins": 1.2901289463043213,
      "rewards/rejected": -2.109017848968506,
      "step": 570
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.982817869415807e-07,
      "logits/chosen": -2.900038003921509,
      "logits/rejected": -2.9860446453094482,
      "logps/chosen": -322.78240966796875,
      "logps/rejected": -231.99667358398438,
      "loss": 0.5668,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.6513129472732544,
      "rewards/margins": 0.49615031480789185,
      "rewards/rejected": -1.147463321685791,
      "step": 580
    },
    {
      "epoch": 0.3,
      "learning_rate": 4.992350353796136e-07,
      "logits/chosen": -2.936190605163574,
      "logits/rejected": -2.8864665031433105,
      "logps/chosen": -251.67172241210938,
      "logps/rejected": -241.36318969726562,
      "loss": 0.4964,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.027965422719717026,
      "rewards/margins": 1.3970218896865845,
      "rewards/rejected": -1.3690563440322876,
      "step": 590
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.982788296041308e-07,
      "logits/chosen": -2.9233040809631348,
      "logits/rejected": -2.961263656616211,
      "logps/chosen": -199.49600219726562,
      "logps/rejected": -255.68612670898438,
      "loss": 0.5966,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.13642588257789612,
      "rewards/margins": 1.8362632989883423,
      "rewards/rejected": -1.9726893901824951,
      "step": 600
    },
    {
      "epoch": 0.31,
      "eval_logits/chosen": -2.8986048698425293,
      "eval_logits/rejected": -2.8777544498443604,
      "eval_logps/chosen": -257.2279357910156,
      "eval_logps/rejected": -273.46136474609375,
      "eval_loss": 0.5963188409805298,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -0.29928162693977356,
      "eval_rewards/margins": 1.349860429763794,
      "eval_rewards/rejected": -1.6491420269012451,
      "eval_runtime": 54.6151,
      "eval_samples_per_second": 18.31,
      "eval_steps_per_second": 0.293,
      "step": 600
    },
    {
      "epoch": 0.31,
      "learning_rate": 4.973226238286479e-07,
      "logits/chosen": -2.9391376972198486,
      "logits/rejected": -2.9422051906585693,
      "logps/chosen": -302.2151184082031,
      "logps/rejected": -287.15606689453125,
      "loss": 0.5368,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.4417892098426819,
      "rewards/margins": 1.2578237056732178,
      "rewards/rejected": -1.6996129751205444,
      "step": 610
    },
    {
      "epoch": 0.32,
      "learning_rate": 4.96366418053165e-07,
      "logits/chosen": -3.0650055408477783,
      "logits/rejected": -3.0660297870635986,
      "logps/chosen": -334.0442810058594,
      "logps/rejected": -252.632080078125,
      "loss": 0.5857,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.07565183192491531,
      "rewards/margins": 0.7010248899459839,
      "rewards/rejected": -0.6253730654716492,
      "step": 620
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.954102122776821e-07,
      "logits/chosen": -2.918349027633667,
      "logits/rejected": -2.8907716274261475,
      "logps/chosen": -195.51907348632812,
      "logps/rejected": -167.48745727539062,
      "loss": 0.5561,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.20618407428264618,
      "rewards/margins": 1.305176019668579,
      "rewards/rejected": -1.5113601684570312,
      "step": 630
    },
    {
      "epoch": 0.33,
      "learning_rate": 4.944540065021993e-07,
      "logits/chosen": -2.8896799087524414,
      "logits/rejected": -2.9980359077453613,
      "logps/chosen": -264.43023681640625,
      "logps/rejected": -230.43008422851562,
      "loss": 0.5386,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.18526920676231384,
      "rewards/margins": 1.8127784729003906,
      "rewards/rejected": -1.9980475902557373,
      "step": 640
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.934978007267163e-07,
      "logits/chosen": -2.959494113922119,
      "logits/rejected": -2.982419967651367,
      "logps/chosen": -242.4766082763672,
      "logps/rejected": -274.0234680175781,
      "loss": 0.5399,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.2960631847381592,
      "rewards/margins": 1.0227611064910889,
      "rewards/rejected": -1.318824291229248,
      "step": 650
    },
    {
      "epoch": 0.34,
      "learning_rate": 4.925415949512335e-07,
      "logits/chosen": -2.9986279010772705,
      "logits/rejected": -2.966939926147461,
      "logps/chosen": -328.2708435058594,
      "logps/rejected": -273.13006591796875,
      "loss": 0.5061,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.47610530257225037,
      "rewards/margins": 1.19678795337677,
      "rewards/rejected": -1.6728931665420532,
      "step": 660
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.915853891757506e-07,
      "logits/chosen": -2.902583360671997,
      "logits/rejected": -2.941610336303711,
      "logps/chosen": -197.52853393554688,
      "logps/rejected": -190.82029724121094,
      "loss": 0.6096,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.34461653232574463,
      "rewards/margins": 0.8742098808288574,
      "rewards/rejected": -1.2188262939453125,
      "step": 670
    },
    {
      "epoch": 0.35,
      "learning_rate": 4.906291834002677e-07,
      "logits/chosen": -2.8424625396728516,
      "logits/rejected": -2.791315793991089,
      "logps/chosen": -273.73455810546875,
      "logps/rejected": -229.92031860351562,
      "loss": 0.5023,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.6406866312026978,
      "rewards/margins": 0.9865404367446899,
      "rewards/rejected": -1.6272270679473877,
      "step": 680
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.896729776247848e-07,
      "logits/chosen": -3.039944648742676,
      "logits/rejected": -2.9114279747009277,
      "logps/chosen": -344.2494201660156,
      "logps/rejected": -179.3026580810547,
      "loss": 0.4748,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.01536635123193264,
      "rewards/margins": 1.3766069412231445,
      "rewards/rejected": -1.3612406253814697,
      "step": 690
    },
    {
      "epoch": 0.36,
      "learning_rate": 4.88716771849302e-07,
      "logits/chosen": -2.9146389961242676,
      "logits/rejected": -2.918255090713501,
      "logps/chosen": -441.6365661621094,
      "logps/rejected": -344.4063720703125,
      "loss": 0.5014,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.2016751766204834,
      "rewards/margins": 1.255171775817871,
      "rewards/rejected": -1.456847071647644,
      "step": 700
    },
    {
      "epoch": 0.36,
      "eval_logits/chosen": -2.7868502140045166,
      "eval_logits/rejected": -2.7659108638763428,
      "eval_logps/chosen": -257.09423828125,
      "eval_logps/rejected": -271.72039794921875,
      "eval_loss": 0.5382026433944702,
      "eval_rewards/accuracies": 0.75,
      "eval_rewards/chosen": -0.28591296076774597,
      "eval_rewards/margins": 1.189131736755371,
      "eval_rewards/rejected": -1.4750447273254395,
      "eval_runtime": 57.4875,
      "eval_samples_per_second": 17.395,
      "eval_steps_per_second": 0.278,
      "step": 700
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.87760566073819e-07,
      "logits/chosen": -2.8412322998046875,
      "logits/rejected": -2.9222323894500732,
      "logps/chosen": -265.5148010253906,
      "logps/rejected": -250.9593963623047,
      "loss": 0.5254,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7364897131919861,
      "rewards/margins": 1.0006908178329468,
      "rewards/rejected": -1.7371807098388672,
      "step": 710
    },
    {
      "epoch": 0.37,
      "learning_rate": 4.868043602983362e-07,
      "logits/chosen": -2.9580254554748535,
      "logits/rejected": -2.9545352458953857,
      "logps/chosen": -275.90625,
      "logps/rejected": -375.8464660644531,
      "loss": 0.5059,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.17938612401485443,
      "rewards/margins": 2.483105421066284,
      "rewards/rejected": -2.662491798400879,
      "step": 720
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.858481545228533e-07,
      "logits/chosen": -2.9665563106536865,
      "logits/rejected": -2.962049722671509,
      "logps/chosen": -315.9619140625,
      "logps/rejected": -332.67608642578125,
      "loss": 0.5005,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.3134005665779114,
      "rewards/margins": 1.136232614517212,
      "rewards/rejected": -1.4496333599090576,
      "step": 730
    },
    {
      "epoch": 0.38,
      "learning_rate": 4.848919487473704e-07,
      "logits/chosen": -2.9164295196533203,
      "logits/rejected": -2.856682538986206,
      "logps/chosen": -322.0476379394531,
      "logps/rejected": -230.6309356689453,
      "loss": 0.5886,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.5171477198600769,
      "rewards/margins": 1.454939603805542,
      "rewards/rejected": -1.9720872640609741,
      "step": 740
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.839357429718875e-07,
      "logits/chosen": -2.884716510772705,
      "logits/rejected": -2.9519991874694824,
      "logps/chosen": -297.78839111328125,
      "logps/rejected": -239.98959350585938,
      "loss": 0.5356,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.3978341817855835,
      "rewards/margins": 1.704395055770874,
      "rewards/rejected": -2.102229356765747,
      "step": 750
    },
    {
      "epoch": 0.39,
      "learning_rate": 4.829795371964047e-07,
      "logits/chosen": -2.831848621368408,
      "logits/rejected": -2.817645311355591,
      "logps/chosen": -249.10452270507812,
      "logps/rejected": -241.6534881591797,
      "loss": 0.8766,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.2761456370353699,
      "rewards/margins": 1.4581564664840698,
      "rewards/rejected": -1.7343019247055054,
      "step": 760
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.820233314209217e-07,
      "logits/chosen": -2.9512200355529785,
      "logits/rejected": -2.9007842540740967,
      "logps/chosen": -230.91299438476562,
      "logps/rejected": -257.34375,
      "loss": 0.5829,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.4074572026729584,
      "rewards/margins": 1.2204868793487549,
      "rewards/rejected": -1.627943992614746,
      "step": 770
    },
    {
      "epoch": 0.4,
      "learning_rate": 4.810671256454389e-07,
      "logits/chosen": -2.7580349445343018,
      "logits/rejected": -2.8238117694854736,
      "logps/chosen": -309.89202880859375,
      "logps/rejected": -203.035400390625,
      "loss": 0.4978,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.5273137092590332,
      "rewards/margins": 1.8291202783584595,
      "rewards/rejected": -2.3564341068267822,
      "step": 780
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.80110919869956e-07,
      "logits/chosen": -2.884530544281006,
      "logits/rejected": -2.9204657077789307,
      "logps/chosen": -300.7388916015625,
      "logps/rejected": -258.79180908203125,
      "loss": 0.5672,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8420109748840332,
      "rewards/margins": 1.2984743118286133,
      "rewards/rejected": -2.1404852867126465,
      "step": 790
    },
    {
      "epoch": 0.41,
      "learning_rate": 4.791547140944731e-07,
      "logits/chosen": -2.904214859008789,
      "logits/rejected": -2.9331746101379395,
      "logps/chosen": -254.6400146484375,
      "logps/rejected": -260.09088134765625,
      "loss": 0.5334,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.006157719995826483,
      "rewards/margins": 1.616097092628479,
      "rewards/rejected": -1.6099392175674438,
      "step": 800
    },
    {
      "epoch": 0.41,
      "eval_logits/chosen": -2.7265069484710693,
      "eval_logits/rejected": -2.705258846282959,
      "eval_logps/chosen": -258.5242004394531,
      "eval_logps/rejected": -275.9377746582031,
      "eval_loss": 0.5677424669265747,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -0.4289108216762543,
      "eval_rewards/margins": 1.4678754806518555,
      "eval_rewards/rejected": -1.8967863321304321,
      "eval_runtime": 55.1088,
      "eval_samples_per_second": 18.146,
      "eval_steps_per_second": 0.29,
      "step": 800
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.781985083189902e-07,
      "logits/chosen": -2.8288321495056152,
      "logits/rejected": -2.7795658111572266,
      "logps/chosen": -183.28457641601562,
      "logps/rejected": -241.27743530273438,
      "loss": 0.557,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.7061542868614197,
      "rewards/margins": 1.3368699550628662,
      "rewards/rejected": -2.0430245399475098,
      "step": 810
    },
    {
      "epoch": 0.42,
      "learning_rate": 4.772423025435074e-07,
      "logits/chosen": -3.0099616050720215,
      "logits/rejected": -2.973783016204834,
      "logps/chosen": -186.28518676757812,
      "logps/rejected": -266.48236083984375,
      "loss": 0.6266,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.71001797914505,
      "rewards/margins": -0.206703782081604,
      "rewards/rejected": -0.5033141374588013,
      "step": 820
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.762860967680244e-07,
      "logits/chosen": -2.9518191814422607,
      "logits/rejected": -3.006854772567749,
      "logps/chosen": -195.8343048095703,
      "logps/rejected": -227.02340698242188,
      "loss": 0.5728,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.15900671482086182,
      "rewards/margins": 0.9850654602050781,
      "rewards/rejected": -1.1440720558166504,
      "step": 830
    },
    {
      "epoch": 0.43,
      "learning_rate": 4.7532989099254154e-07,
      "logits/chosen": -3.009342670440674,
      "logits/rejected": -3.0587260723114014,
      "logps/chosen": -300.0588684082031,
      "logps/rejected": -257.58203125,
      "loss": 0.6019,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.6498911380767822,
      "rewards/margins": 0.7764835953712463,
      "rewards/rejected": -1.4263746738433838,
      "step": 840
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.7437368521705866e-07,
      "logits/chosen": -2.902837038040161,
      "logits/rejected": -2.8557207584381104,
      "logps/chosen": -246.87142944335938,
      "logps/rejected": -213.7313232421875,
      "loss": 0.5167,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.49609607458114624,
      "rewards/margins": 1.5304511785507202,
      "rewards/rejected": -2.026547431945801,
      "step": 850
    },
    {
      "epoch": 0.44,
      "learning_rate": 4.7341747944157577e-07,
      "logits/chosen": -2.726759910583496,
      "logits/rejected": -2.728843927383423,
      "logps/chosen": -199.48330688476562,
      "logps/rejected": -235.99014282226562,
      "loss": 0.5803,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.1567280292510986,
      "rewards/margins": 1.015815258026123,
      "rewards/rejected": -2.1725430488586426,
      "step": 860
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.724612736660929e-07,
      "logits/chosen": -2.89784836769104,
      "logits/rejected": -2.9295287132263184,
      "logps/chosen": -265.757080078125,
      "logps/rejected": -193.9804229736328,
      "loss": 0.482,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.018481796607375145,
      "rewards/margins": 2.08237361907959,
      "rewards/rejected": -2.063891887664795,
      "step": 870
    },
    {
      "epoch": 0.45,
      "learning_rate": 4.7150506789061006e-07,
      "logits/chosen": -2.8157646656036377,
      "logits/rejected": -2.831799268722534,
      "logps/chosen": -235.80184936523438,
      "logps/rejected": -296.13421630859375,
      "loss": 0.5127,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5655059814453125,
      "rewards/margins": 1.134603500366211,
      "rewards/rejected": -1.7001097202301025,
      "step": 880
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.7054886211512717e-07,
      "logits/chosen": -2.9849319458007812,
      "logits/rejected": -2.9874143600463867,
      "logps/chosen": -297.6209411621094,
      "logps/rejected": -262.95428466796875,
      "loss": 0.5396,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.07225757837295532,
      "rewards/margins": 0.5653451085090637,
      "rewards/rejected": -0.6376025676727295,
      "step": 890
    },
    {
      "epoch": 0.46,
      "learning_rate": 4.695926563396443e-07,
      "logits/chosen": -3.043614149093628,
      "logits/rejected": -3.0626580715179443,
      "logps/chosen": -243.42160034179688,
      "logps/rejected": -207.7015838623047,
      "loss": 0.5251,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.3596685528755188,
      "rewards/margins": 1.1817331314086914,
      "rewards/rejected": -1.5414015054702759,
      "step": 900
    },
    {
      "epoch": 0.46,
      "eval_logits/chosen": -2.8661580085754395,
      "eval_logits/rejected": -2.846320629119873,
      "eval_logps/chosen": -256.3507080078125,
      "eval_logps/rejected": -270.0767822265625,
      "eval_loss": 0.5772436261177063,
      "eval_rewards/accuracies": 0.734375,
      "eval_rewards/chosen": -0.21155984699726105,
      "eval_rewards/margins": 1.0991249084472656,
      "eval_rewards/rejected": -1.3106846809387207,
      "eval_runtime": 58.614,
      "eval_samples_per_second": 17.061,
      "eval_steps_per_second": 0.273,
      "step": 900
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.686364505641614e-07,
      "logits/chosen": -3.027421474456787,
      "logits/rejected": -3.1281371116638184,
      "logps/chosen": -293.70989990234375,
      "logps/rejected": -189.66464233398438,
      "loss": 0.4978,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.41769805550575256,
      "rewards/margins": 1.199561357498169,
      "rewards/rejected": -1.6172593832015991,
      "step": 910
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.676802447886785e-07,
      "logits/chosen": -2.8584070205688477,
      "logits/rejected": -2.882302761077881,
      "logps/chosen": -256.07684326171875,
      "logps/rejected": -255.83047485351562,
      "loss": 0.5412,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.33531659841537476,
      "rewards/margins": 0.8404865264892578,
      "rewards/rejected": -1.1758031845092773,
      "step": 920
    },
    {
      "epoch": 0.48,
      "learning_rate": 4.6672403901319564e-07,
      "logits/chosen": -2.929386854171753,
      "logits/rejected": -3.0053086280822754,
      "logps/chosen": -316.0078125,
      "logps/rejected": -171.36656188964844,
      "loss": 0.4762,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.023432254791259766,
      "rewards/margins": 2.0073459148406982,
      "rewards/rejected": -1.9839136600494385,
      "step": 930
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.6576783323771275e-07,
      "logits/chosen": -2.8826663494110107,
      "logits/rejected": -2.8366870880126953,
      "logps/chosen": -243.7962188720703,
      "logps/rejected": -187.9961700439453,
      "loss": 0.503,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.2530770003795624,
      "rewards/margins": 1.1314551830291748,
      "rewards/rejected": -1.3845322132110596,
      "step": 940
    },
    {
      "epoch": 0.49,
      "learning_rate": 4.6481162746222987e-07,
      "logits/chosen": -2.8165650367736816,
      "logits/rejected": -2.9121110439300537,
      "logps/chosen": -251.54098510742188,
      "logps/rejected": -237.3175506591797,
      "loss": 0.8784,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.2420404851436615,
      "rewards/margins": 2.1679394245147705,
      "rewards/rejected": -2.409980058670044,
      "step": 950
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.63855421686747e-07,
      "logits/chosen": -2.813908100128174,
      "logits/rejected": -2.8820648193359375,
      "logps/chosen": -274.791748046875,
      "logps/rejected": -240.8386993408203,
      "loss": 0.5649,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.04944751411676407,
      "rewards/margins": 1.3660838603973389,
      "rewards/rejected": -1.4155313968658447,
      "step": 960
    },
    {
      "epoch": 0.5,
      "learning_rate": 4.628992159112641e-07,
      "logits/chosen": -2.7781646251678467,
      "logits/rejected": -2.8930909633636475,
      "logps/chosen": -328.9050598144531,
      "logps/rejected": -236.53414916992188,
      "loss": 0.5675,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.06258317828178406,
      "rewards/margins": 1.6145604848861694,
      "rewards/rejected": -1.6771436929702759,
      "step": 970
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.6194301013578116e-07,
      "logits/chosen": -2.9083309173583984,
      "logits/rejected": -2.824375629425049,
      "logps/chosen": -287.6618347167969,
      "logps/rejected": -230.19393920898438,
      "loss": 0.5169,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.4656705856323242,
      "rewards/margins": 1.6011505126953125,
      "rewards/rejected": -2.0668210983276367,
      "step": 980
    },
    {
      "epoch": 0.51,
      "learning_rate": 4.609868043602983e-07,
      "logits/chosen": -2.937588691711426,
      "logits/rejected": -2.896270275115967,
      "logps/chosen": -275.5927734375,
      "logps/rejected": -288.66680908203125,
      "loss": 0.4917,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.19148771464824677,
      "rewards/margins": 1.2772417068481445,
      "rewards/rejected": -1.4687296152114868,
      "step": 990
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.600305985848154e-07,
      "logits/chosen": -2.9878718852996826,
      "logits/rejected": -3.0833239555358887,
      "logps/chosen": -213.8026123046875,
      "logps/rejected": -214.43362426757812,
      "loss": 0.5205,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -0.5573463439941406,
      "rewards/margins": 0.5783860087394714,
      "rewards/rejected": -1.1357324123382568,
      "step": 1000
    },
    {
      "epoch": 0.52,
      "eval_logits/chosen": -2.7978734970092773,
      "eval_logits/rejected": -2.78934907913208,
      "eval_logps/chosen": -258.027587890625,
      "eval_logps/rejected": -275.55523681640625,
      "eval_loss": 0.5262419581413269,
      "eval_rewards/accuracies": 0.71875,
      "eval_rewards/chosen": -0.37924808263778687,
      "eval_rewards/margins": 1.479280710220337,
      "eval_rewards/rejected": -1.858528733253479,
      "eval_runtime": 57.7979,
      "eval_samples_per_second": 17.302,
      "eval_steps_per_second": 0.277,
      "step": 1000
    },
    {
      "epoch": 0.52,
      "learning_rate": 4.590743928093325e-07,
      "logits/chosen": -2.8478896617889404,
      "logits/rejected": -2.786147117614746,
      "logps/chosen": -383.54327392578125,
      "logps/rejected": -270.4455261230469,
      "loss": 0.5498,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.0184290409088135,
      "rewards/margins": 0.9436414837837219,
      "rewards/rejected": -1.9620707035064697,
      "step": 1010
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.581181870338497e-07,
      "logits/chosen": -2.8463029861450195,
      "logits/rejected": -2.900444746017456,
      "logps/chosen": -327.9524841308594,
      "logps/rejected": -274.52862548828125,
      "loss": 0.5847,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.27039843797683716,
      "rewards/margins": 1.4945565462112427,
      "rewards/rejected": -1.7649548053741455,
      "step": 1020
    },
    {
      "epoch": 0.53,
      "learning_rate": 4.571619812583668e-07,
      "logits/chosen": -2.793391466140747,
      "logits/rejected": -2.795802354812622,
      "logps/chosen": -267.8859558105469,
      "logps/rejected": -217.9220733642578,
      "loss": 0.4481,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.3454091250896454,
      "rewards/margins": 2.0243167877197266,
      "rewards/rejected": -2.3697259426116943,
      "step": 1030
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.562057754828839e-07,
      "logits/chosen": -2.868319034576416,
      "logits/rejected": -2.905986785888672,
      "logps/chosen": -264.89349365234375,
      "logps/rejected": -310.06231689453125,
      "loss": 0.5553,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.33068472146987915,
      "rewards/margins": 2.051600933074951,
      "rewards/rejected": -2.3822855949401855,
      "step": 1040
    },
    {
      "epoch": 0.54,
      "learning_rate": 4.55249569707401e-07,
      "logits/chosen": -2.834726572036743,
      "logits/rejected": -2.9254660606384277,
      "logps/chosen": -293.556884765625,
      "logps/rejected": -234.21005249023438,
      "loss": 0.5042,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.1473982334136963,
      "rewards/margins": 1.1652801036834717,
      "rewards/rejected": -2.312678337097168,
      "step": 1050
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.5429336393191814e-07,
      "logits/chosen": -2.7575011253356934,
      "logits/rejected": -2.8820366859436035,
      "logps/chosen": -322.6793518066406,
      "logps/rejected": -208.82388305664062,
      "loss": 0.6648,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.6877565383911133,
      "rewards/margins": 0.889872670173645,
      "rewards/rejected": -1.5776290893554688,
      "step": 1060
    },
    {
      "epoch": 0.55,
      "learning_rate": 4.5333715815643525e-07,
      "logits/chosen": -2.8447697162628174,
      "logits/rejected": -2.8715322017669678,
      "logps/chosen": -386.28570556640625,
      "logps/rejected": -268.4273376464844,
      "loss": 0.5397,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.26172274351119995,
      "rewards/margins": 1.4582087993621826,
      "rewards/rejected": -1.7199318408966064,
      "step": 1070
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.5238095238095237e-07,
      "logits/chosen": -2.957181215286255,
      "logits/rejected": -2.9968810081481934,
      "logps/chosen": -263.70684814453125,
      "logps/rejected": -233.9396209716797,
      "loss": 0.5506,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.8327061533927917,
      "rewards/margins": 0.7109770774841309,
      "rewards/rejected": -1.5436832904815674,
      "step": 1080
    },
    {
      "epoch": 0.56,
      "learning_rate": 4.514247466054695e-07,
      "logits/chosen": -2.9863791465759277,
      "logits/rejected": -2.9521121978759766,
      "logps/chosen": -245.79244995117188,
      "logps/rejected": -189.44338989257812,
      "loss": 0.5105,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.5945242643356323,
      "rewards/margins": 1.325272560119629,
      "rewards/rejected": -1.9197969436645508,
      "step": 1090
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.504685408299866e-07,
      "logits/chosen": -2.892086982727051,
      "logits/rejected": -2.942537784576416,
      "logps/chosen": -336.52685546875,
      "logps/rejected": -304.50567626953125,
      "loss": 0.5094,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.14167115092277527,
      "rewards/margins": 0.7381815314292908,
      "rewards/rejected": -0.8798527717590332,
      "step": 1100
    },
    {
      "epoch": 0.57,
      "eval_logits/chosen": -2.753582715988159,
      "eval_logits/rejected": -2.7452518939971924,
      "eval_logps/chosen": -260.51361083984375,
      "eval_logps/rejected": -276.33770751953125,
      "eval_loss": 0.5432895421981812,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -0.6278508901596069,
      "eval_rewards/margins": 1.3089274168014526,
      "eval_rewards/rejected": -1.93677818775177,
      "eval_runtime": 53.4701,
      "eval_samples_per_second": 18.702,
      "eval_steps_per_second": 0.299,
      "step": 1100
    },
    {
      "epoch": 0.57,
      "learning_rate": 4.495123350545037e-07,
      "logits/chosen": -2.9081952571868896,
      "logits/rejected": -2.9619812965393066,
      "logps/chosen": -278.28076171875,
      "logps/rejected": -240.11181640625,
      "loss": 0.5065,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.323709636926651,
      "rewards/margins": 0.9985870122909546,
      "rewards/rejected": -1.3222965002059937,
      "step": 1110
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.4855612927902083e-07,
      "logits/chosen": -2.8727335929870605,
      "logits/rejected": -2.8023390769958496,
      "logps/chosen": -325.6292419433594,
      "logps/rejected": -239.16049194335938,
      "loss": 0.7095,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.41461220383644104,
      "rewards/margins": 1.4964089393615723,
      "rewards/rejected": -1.9110209941864014,
      "step": 1120
    },
    {
      "epoch": 0.58,
      "learning_rate": 4.4759992350353795e-07,
      "logits/chosen": -2.8231780529022217,
      "logits/rejected": -2.908735513687134,
      "logps/chosen": -304.6755676269531,
      "logps/rejected": -277.4778747558594,
      "loss": 0.4456,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8432878255844116,
      "rewards/margins": 1.6819578409194946,
      "rewards/rejected": -2.5252456665039062,
      "step": 1130
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.46643717728055e-07,
      "logits/chosen": -2.7151193618774414,
      "logits/rejected": -2.8067574501037598,
      "logps/chosen": -280.8679504394531,
      "logps/rejected": -273.8851318359375,
      "loss": 0.5359,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.0236613750457764,
      "rewards/margins": 1.5441632270812988,
      "rewards/rejected": -2.567824125289917,
      "step": 1140
    },
    {
      "epoch": 0.59,
      "learning_rate": 4.4568751195257213e-07,
      "logits/chosen": -2.776689052581787,
      "logits/rejected": -2.8435564041137695,
      "logps/chosen": -241.6661376953125,
      "logps/rejected": -214.4073944091797,
      "loss": 0.5624,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.6465439796447754,
      "rewards/margins": 1.3678399324417114,
      "rewards/rejected": -2.0143837928771973,
      "step": 1150
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.447313061770893e-07,
      "logits/chosen": -2.7138195037841797,
      "logits/rejected": -2.585179328918457,
      "logps/chosen": -335.81146240234375,
      "logps/rejected": -350.88385009765625,
      "loss": 0.54,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.47935476899147034,
      "rewards/margins": 2.091104030609131,
      "rewards/rejected": -2.5704588890075684,
      "step": 1160
    },
    {
      "epoch": 0.6,
      "learning_rate": 4.437751004016064e-07,
      "logits/chosen": -2.958820104598999,
      "logits/rejected": -2.9421515464782715,
      "logps/chosen": -305.28839111328125,
      "logps/rejected": -262.6142883300781,
      "loss": 0.5226,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.1983194649219513,
      "rewards/margins": 1.0410559177398682,
      "rewards/rejected": -1.239375352859497,
      "step": 1170
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.4281889462612353e-07,
      "logits/chosen": -2.9157230854034424,
      "logits/rejected": -2.9529147148132324,
      "logps/chosen": -262.28411865234375,
      "logps/rejected": -205.23324584960938,
      "loss": 0.4879,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.35369348526000977,
      "rewards/margins": 1.1171058416366577,
      "rewards/rejected": -1.4707993268966675,
      "step": 1180
    },
    {
      "epoch": 0.61,
      "learning_rate": 4.4186268885064064e-07,
      "logits/chosen": -3.012878894805908,
      "logits/rejected": -2.9825873374938965,
      "logps/chosen": -287.4079895019531,
      "logps/rejected": -257.97772216796875,
      "loss": 0.5481,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8515245318412781,
      "rewards/margins": 0.8873499035835266,
      "rewards/rejected": -1.7388744354248047,
      "step": 1190
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.4090648307515776e-07,
      "logits/chosen": -2.9880738258361816,
      "logits/rejected": -2.9730162620544434,
      "logps/chosen": -224.86508178710938,
      "logps/rejected": -165.42733764648438,
      "loss": 0.5837,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.528744101524353,
      "rewards/margins": 0.9531749486923218,
      "rewards/rejected": -1.4819190502166748,
      "step": 1200
    },
    {
      "epoch": 0.62,
      "eval_logits/chosen": -2.775576591491699,
      "eval_logits/rejected": -2.7643439769744873,
      "eval_logps/chosen": -258.015380859375,
      "eval_logps/rejected": -276.55419921875,
      "eval_loss": 0.5348690152168274,
      "eval_rewards/accuracies": 0.765625,
      "eval_rewards/chosen": -0.37802520394325256,
      "eval_rewards/margins": 1.5804035663604736,
      "eval_rewards/rejected": -1.9584287405014038,
      "eval_runtime": 62.7794,
      "eval_samples_per_second": 15.929,
      "eval_steps_per_second": 0.255,
      "step": 1200
    },
    {
      "epoch": 0.62,
      "learning_rate": 4.399502772996749e-07,
      "logits/chosen": -3.065775156021118,
      "logits/rejected": -2.972374677658081,
      "logps/chosen": -329.2245178222656,
      "logps/rejected": -304.1506042480469,
      "loss": 0.4827,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5635257363319397,
      "rewards/margins": 1.3332871198654175,
      "rewards/rejected": -1.8968127965927124,
      "step": 1210
    },
    {
      "epoch": 0.63,
      "learning_rate": 4.38994071524192e-07,
      "logits/chosen": -3.030421733856201,
      "logits/rejected": -3.05527925491333,
      "logps/chosen": -258.029541015625,
      "logps/rejected": -280.21673583984375,
      "loss": 0.5735,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8231660723686218,
      "rewards/margins": 1.493502140045166,
      "rewards/rejected": -2.3166680335998535,
      "step": 1220
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.380378657487091e-07,
      "logits/chosen": -3.074777364730835,
      "logits/rejected": -3.0200257301330566,
      "logps/chosen": -330.8500061035156,
      "logps/rejected": -371.5386047363281,
      "loss": 0.5982,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.35177409648895264,
      "rewards/margins": 1.7098945379257202,
      "rewards/rejected": -2.061668634414673,
      "step": 1230
    },
    {
      "epoch": 0.64,
      "learning_rate": 4.370816599732262e-07,
      "logits/chosen": -2.999420166015625,
      "logits/rejected": -2.9334309101104736,
      "logps/chosen": -296.1866760253906,
      "logps/rejected": -236.72341918945312,
      "loss": 0.5337,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.419023871421814,
      "rewards/margins": 1.311092734336853,
      "rewards/rejected": -2.730116367340088,
      "step": 1240
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.3612545419774334e-07,
      "logits/chosen": -2.883204460144043,
      "logits/rejected": -2.8073534965515137,
      "logps/chosen": -257.63519287109375,
      "logps/rejected": -301.64227294921875,
      "loss": 0.5928,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.9009000658988953,
      "rewards/margins": 1.269942045211792,
      "rewards/rejected": -2.170842409133911,
      "step": 1250
    },
    {
      "epoch": 0.65,
      "learning_rate": 4.3516924842226045e-07,
      "logits/chosen": -2.920656681060791,
      "logits/rejected": -2.91890025138855,
      "logps/chosen": -322.2228698730469,
      "logps/rejected": -296.6404113769531,
      "loss": 0.629,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9084477424621582,
      "rewards/margins": 1.9311565160751343,
      "rewards/rejected": -2.839603900909424,
      "step": 1260
    },
    {
      "epoch": 0.66,
      "learning_rate": 4.3421304264677757e-07,
      "logits/chosen": -2.7664384841918945,
      "logits/rejected": -2.7587597370147705,
      "logps/chosen": -214.4353485107422,
      "logps/rejected": -212.84805297851562,
      "loss": 0.476,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.016667127609253,
      "rewards/margins": 1.7192564010620117,
      "rewards/rejected": -2.7359237670898438,
      "step": 1270
    },
    {
      "epoch": 0.66,
      "learning_rate": 4.332568368712947e-07,
      "logits/chosen": -2.933134078979492,
      "logits/rejected": -2.877431869506836,
      "logps/chosen": -361.19573974609375,
      "logps/rejected": -279.9434814453125,
      "loss": 0.5784,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.5590813159942627,
      "rewards/margins": 0.4831056594848633,
      "rewards/rejected": -2.042186975479126,
      "step": 1280
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.323006310958118e-07,
      "logits/chosen": -2.904773235321045,
      "logits/rejected": -2.985483169555664,
      "logps/chosen": -411.599853515625,
      "logps/rejected": -315.9092712402344,
      "loss": 0.4975,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.908369243144989,
      "rewards/margins": 1.5060293674468994,
      "rewards/rejected": -2.414398670196533,
      "step": 1290
    },
    {
      "epoch": 0.67,
      "learning_rate": 4.313444253203289e-07,
      "logits/chosen": -2.9397823810577393,
      "logits/rejected": -2.9090006351470947,
      "logps/chosen": -281.9468078613281,
      "logps/rejected": -261.4234619140625,
      "loss": 0.5214,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.9744187593460083,
      "rewards/margins": 1.7388330698013306,
      "rewards/rejected": -2.7132515907287598,
      "step": 1300
    },
    {
      "epoch": 0.67,
      "eval_logits/chosen": -2.711259603500366,
      "eval_logits/rejected": -2.698620080947876,
      "eval_logps/chosen": -264.2903137207031,
      "eval_logps/rejected": -279.27606201171875,
      "eval_loss": 0.5732331871986389,
      "eval_rewards/accuracies": 0.765625,
      "eval_rewards/chosen": -1.0055204629898071,
      "eval_rewards/margins": 1.2250933647155762,
      "eval_rewards/rejected": -2.2306137084960938,
      "eval_runtime": 57.0185,
      "eval_samples_per_second": 17.538,
      "eval_steps_per_second": 0.281,
      "step": 1300
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.3038821954484603e-07,
      "logits/chosen": -2.8764219284057617,
      "logits/rejected": -2.7695984840393066,
      "logps/chosen": -238.80453491210938,
      "logps/rejected": -252.7805633544922,
      "loss": 0.4686,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -1.3183587789535522,
      "rewards/margins": 0.5890123248100281,
      "rewards/rejected": -1.907371163368225,
      "step": 1310
    },
    {
      "epoch": 0.68,
      "learning_rate": 4.2943201376936315e-07,
      "logits/chosen": -2.8463966846466064,
      "logits/rejected": -2.850677967071533,
      "logps/chosen": -291.9525146484375,
      "logps/rejected": -315.1170349121094,
      "loss": 0.5393,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8451521992683411,
      "rewards/margins": 1.4508628845214844,
      "rewards/rejected": -2.2960150241851807,
      "step": 1320
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.2847580799388026e-07,
      "logits/chosen": -2.8076231479644775,
      "logits/rejected": -2.7472128868103027,
      "logps/chosen": -258.0926513671875,
      "logps/rejected": -188.78359985351562,
      "loss": 0.5812,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.4854873418807983,
      "rewards/margins": 0.9221324920654297,
      "rewards/rejected": -2.4076199531555176,
      "step": 1330
    },
    {
      "epoch": 0.69,
      "learning_rate": 4.275196022183974e-07,
      "logits/chosen": -2.7642879486083984,
      "logits/rejected": -2.812042474746704,
      "logps/chosen": -319.1858825683594,
      "logps/rejected": -246.2572784423828,
      "loss": 0.553,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.092181921005249,
      "rewards/margins": 0.8022899627685547,
      "rewards/rejected": -1.8944717645645142,
      "step": 1340
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.265633964429145e-07,
      "logits/chosen": -2.812278985977173,
      "logits/rejected": -2.761359691619873,
      "logps/chosen": -342.2608337402344,
      "logps/rejected": -224.8918914794922,
      "loss": 0.5775,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.914333701133728,
      "rewards/margins": 1.487335205078125,
      "rewards/rejected": -2.4016687870025635,
      "step": 1350
    },
    {
      "epoch": 0.7,
      "learning_rate": 4.256071906674316e-07,
      "logits/chosen": -2.9929111003875732,
      "logits/rejected": -2.94170880317688,
      "logps/chosen": -379.921875,
      "logps/rejected": -368.10357666015625,
      "loss": 0.652,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.6550450325012207,
      "rewards/margins": 0.9407709240913391,
      "rewards/rejected": -1.595815896987915,
      "step": 1360
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.246509848919487e-07,
      "logits/chosen": -2.912461757659912,
      "logits/rejected": -2.9404354095458984,
      "logps/chosen": -348.6622009277344,
      "logps/rejected": -248.0426788330078,
      "loss": 0.5636,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7293527722358704,
      "rewards/margins": 1.5709936618804932,
      "rewards/rejected": -2.3003463745117188,
      "step": 1370
    },
    {
      "epoch": 0.71,
      "learning_rate": 4.2369477911646584e-07,
      "logits/chosen": -2.829761505126953,
      "logits/rejected": -2.7305688858032227,
      "logps/chosen": -295.06781005859375,
      "logps/rejected": -240.6433563232422,
      "loss": 0.5567,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.69425368309021,
      "rewards/margins": 1.3369704484939575,
      "rewards/rejected": -2.031224012374878,
      "step": 1380
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.2273857334098296e-07,
      "logits/chosen": -2.7433788776397705,
      "logits/rejected": -2.67673921585083,
      "logps/chosen": -289.397216796875,
      "logps/rejected": -243.04833984375,
      "loss": 0.6061,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.7310119867324829,
      "rewards/margins": 0.585370659828186,
      "rewards/rejected": -1.316382646560669,
      "step": 1390
    },
    {
      "epoch": 0.72,
      "learning_rate": 4.2178236756550007e-07,
      "logits/chosen": -2.923424243927002,
      "logits/rejected": -2.912429094314575,
      "logps/chosen": -198.62017822265625,
      "logps/rejected": -277.8341979980469,
      "loss": 0.6914,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.4593328535556793,
      "rewards/margins": 0.9467372894287109,
      "rewards/rejected": -1.4060701131820679,
      "step": 1400
    },
    {
      "epoch": 0.72,
      "eval_logits/chosen": -2.727492094039917,
      "eval_logits/rejected": -2.7166121006011963,
      "eval_logps/chosen": -261.146728515625,
      "eval_logps/rejected": -278.7448425292969,
      "eval_loss": 0.5136687159538269,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -0.6911616921424866,
      "eval_rewards/margins": 1.4863313436508179,
      "eval_rewards/rejected": -2.177493095397949,
      "eval_runtime": 58.5256,
      "eval_samples_per_second": 17.087,
      "eval_steps_per_second": 0.273,
      "step": 1400
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.208261617900172e-07,
      "logits/chosen": -2.9004664421081543,
      "logits/rejected": -2.991079807281494,
      "logps/chosen": -200.07357788085938,
      "logps/rejected": -212.9990234375,
      "loss": 0.4996,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.8260477185249329,
      "rewards/margins": 1.3000409603118896,
      "rewards/rejected": -2.1260886192321777,
      "step": 1410
    },
    {
      "epoch": 0.73,
      "learning_rate": 4.198699560145343e-07,
      "logits/chosen": -2.750919818878174,
      "logits/rejected": -2.563699245452881,
      "logps/chosen": -229.60348510742188,
      "logps/rejected": -250.4010467529297,
      "loss": 0.6298,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8068568110466003,
      "rewards/margins": 0.5274587869644165,
      "rewards/rejected": -1.334315538406372,
      "step": 1420
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.189137502390514e-07,
      "logits/chosen": -2.871040105819702,
      "logits/rejected": -2.859773635864258,
      "logps/chosen": -255.4622344970703,
      "logps/rejected": -367.54644775390625,
      "loss": 0.6702,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7843345999717712,
      "rewards/margins": 1.0513083934783936,
      "rewards/rejected": -1.8356430530548096,
      "step": 1430
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.179575444635686e-07,
      "logits/chosen": -2.797947406768799,
      "logits/rejected": -2.768245220184326,
      "logps/chosen": -297.70465087890625,
      "logps/rejected": -303.483154296875,
      "loss": 0.5911,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.02579927444458,
      "rewards/margins": 1.1320759057998657,
      "rewards/rejected": -2.1578750610351562,
      "step": 1440
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.170013386880857e-07,
      "logits/chosen": -2.842421531677246,
      "logits/rejected": -2.816070318222046,
      "logps/chosen": -286.8984069824219,
      "logps/rejected": -256.8731689453125,
      "loss": 0.4926,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8610552549362183,
      "rewards/margins": 0.9260069727897644,
      "rewards/rejected": -1.7870622873306274,
      "step": 1450
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.1604513291260277e-07,
      "logits/chosen": -2.814866542816162,
      "logits/rejected": -2.7706210613250732,
      "logps/chosen": -273.64111328125,
      "logps/rejected": -259.51885986328125,
      "loss": 0.5227,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.5814541578292847,
      "rewards/margins": 2.4891767501831055,
      "rewards/rejected": -3.0706310272216797,
      "step": 1460
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.150889271371199e-07,
      "logits/chosen": -2.7491848468780518,
      "logits/rejected": -2.800107002258301,
      "logps/chosen": -268.9418029785156,
      "logps/rejected": -296.1412658691406,
      "loss": 0.59,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.48690223693847656,
      "rewards/margins": 1.39999520778656,
      "rewards/rejected": -1.886897325515747,
      "step": 1470
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.14132721361637e-07,
      "logits/chosen": -2.7790863513946533,
      "logits/rejected": -2.756493330001831,
      "logps/chosen": -376.4327392578125,
      "logps/rejected": -220.66128540039062,
      "loss": 0.4328,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.6699414849281311,
      "rewards/margins": 2.2528209686279297,
      "rewards/rejected": -2.922762632369995,
      "step": 1480
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.131765155861541e-07,
      "logits/chosen": -2.732978343963623,
      "logits/rejected": -2.712939739227295,
      "logps/chosen": -216.78231811523438,
      "logps/rejected": -187.97975158691406,
      "loss": 0.5317,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3067319989204407,
      "rewards/margins": 1.883384346961975,
      "rewards/rejected": -2.1901164054870605,
      "step": 1490
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.1222030981067123e-07,
      "logits/chosen": -2.7365033626556396,
      "logits/rejected": -2.709888458251953,
      "logps/chosen": -284.1839294433594,
      "logps/rejected": -285.10064697265625,
      "loss": 0.4655,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -1.2894710302352905,
      "rewards/margins": 0.8915459513664246,
      "rewards/rejected": -2.1810169219970703,
      "step": 1500
    },
    {
      "epoch": 0.77,
      "eval_logits/chosen": -2.6837804317474365,
      "eval_logits/rejected": -2.6651253700256348,
      "eval_logps/chosen": -262.2220153808594,
      "eval_logps/rejected": -279.8998718261719,
      "eval_loss": 0.5090023875236511,
      "eval_rewards/accuracies": 0.703125,
      "eval_rewards/chosen": -0.7986923456192017,
      "eval_rewards/margins": 1.494301438331604,
      "eval_rewards/rejected": -2.2929937839508057,
      "eval_runtime": 59.1398,
      "eval_samples_per_second": 16.909,
      "eval_steps_per_second": 0.271,
      "step": 1500
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.1126410403518835e-07,
      "logits/chosen": -2.774035930633545,
      "logits/rejected": -2.5919785499572754,
      "logps/chosen": -263.84185791015625,
      "logps/rejected": -284.3238220214844,
      "loss": 0.506,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.6006399393081665,
      "rewards/margins": 2.4321160316467285,
      "rewards/rejected": -3.0327563285827637,
      "step": 1510
    },
    {
      "epoch": 0.78,
      "learning_rate": 4.1030789825970546e-07,
      "logits/chosen": -2.834711790084839,
      "logits/rejected": -2.8974971771240234,
      "logps/chosen": -314.38604736328125,
      "logps/rejected": -352.1858825683594,
      "loss": 0.5863,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -0.9283245205879211,
      "rewards/margins": 0.4295298457145691,
      "rewards/rejected": -1.3578544855117798,
      "step": 1520
    },
    {
      "epoch": 0.79,
      "learning_rate": 4.093516924842226e-07,
      "logits/chosen": -2.6712985038757324,
      "logits/rejected": -2.6710007190704346,
      "logps/chosen": -241.9701690673828,
      "logps/rejected": -220.11502075195312,
      "loss": 0.4433,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.21889445185661316,
      "rewards/margins": 1.4537973403930664,
      "rewards/rejected": -1.6726917028427124,
      "step": 1530
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.083954867087397e-07,
      "logits/chosen": -2.9339497089385986,
      "logits/rejected": -2.9125781059265137,
      "logps/chosen": -197.97679138183594,
      "logps/rejected": -202.1653289794922,
      "loss": 0.5284,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": -1.0227124691009521,
      "rewards/margins": 0.7052000761032104,
      "rewards/rejected": -1.7279125452041626,
      "step": 1540
    },
    {
      "epoch": 0.8,
      "learning_rate": 4.074392809332568e-07,
      "logits/chosen": -2.841710329055786,
      "logits/rejected": -2.8297677040100098,
      "logps/chosen": -316.0207824707031,
      "logps/rejected": -229.83837890625,
      "loss": 0.513,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8295713663101196,
      "rewards/margins": 1.6421802043914795,
      "rewards/rejected": -2.4717514514923096,
      "step": 1550
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.064830751577739e-07,
      "logits/chosen": -2.889648914337158,
      "logits/rejected": -2.767516613006592,
      "logps/chosen": -185.7052001953125,
      "logps/rejected": -177.06546020507812,
      "loss": 0.4782,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.2799871563911438,
      "rewards/margins": 1.6918373107910156,
      "rewards/rejected": -1.971824288368225,
      "step": 1560
    },
    {
      "epoch": 0.81,
      "learning_rate": 4.0552686938229104e-07,
      "logits/chosen": -2.913878917694092,
      "logits/rejected": -2.7892653942108154,
      "logps/chosen": -242.6092071533203,
      "logps/rejected": -218.4198760986328,
      "loss": 0.4485,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.5770751237869263,
      "rewards/margins": 1.0650291442871094,
      "rewards/rejected": -1.6421045064926147,
      "step": 1570
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.045706636068082e-07,
      "logits/chosen": -2.769942045211792,
      "logits/rejected": -2.8180408477783203,
      "logps/chosen": -178.39805603027344,
      "logps/rejected": -233.78713989257812,
      "loss": 0.4683,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6862732768058777,
      "rewards/margins": 1.50155770778656,
      "rewards/rejected": -2.187831163406372,
      "step": 1580
    },
    {
      "epoch": 0.82,
      "learning_rate": 4.036144578313253e-07,
      "logits/chosen": -2.832733392715454,
      "logits/rejected": -2.9456982612609863,
      "logps/chosen": -258.8636779785156,
      "logps/rejected": -223.64968872070312,
      "loss": 0.5346,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5500979423522949,
      "rewards/margins": 1.3681669235229492,
      "rewards/rejected": -1.9182647466659546,
      "step": 1590
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.0265825205584244e-07,
      "logits/chosen": -2.820535182952881,
      "logits/rejected": -2.8729701042175293,
      "logps/chosen": -261.64056396484375,
      "logps/rejected": -265.8938293457031,
      "loss": 0.5731,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.2627449929714203,
      "rewards/margins": 1.6428673267364502,
      "rewards/rejected": -1.9056123495101929,
      "step": 1600
    },
    {
      "epoch": 0.83,
      "eval_logits/chosen": -2.6727685928344727,
      "eval_logits/rejected": -2.654268264770508,
      "eval_logps/chosen": -262.48760986328125,
      "eval_logps/rejected": -280.4902038574219,
      "eval_loss": 0.5312163829803467,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -0.8252508044242859,
      "eval_rewards/margins": 1.5267785787582397,
      "eval_rewards/rejected": -2.352029323577881,
      "eval_runtime": 58.1435,
      "eval_samples_per_second": 17.199,
      "eval_steps_per_second": 0.275,
      "step": 1600
    },
    {
      "epoch": 0.83,
      "learning_rate": 4.0170204628035956e-07,
      "logits/chosen": -2.7514543533325195,
      "logits/rejected": -2.8077378273010254,
      "logps/chosen": -211.7623748779297,
      "logps/rejected": -252.843994140625,
      "loss": 0.494,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7454391121864319,
      "rewards/margins": 1.7308275699615479,
      "rewards/rejected": -2.476266384124756,
      "step": 1610
    },
    {
      "epoch": 0.84,
      "learning_rate": 4.007458405048766e-07,
      "logits/chosen": -2.857224225997925,
      "logits/rejected": -2.839128017425537,
      "logps/chosen": -282.80975341796875,
      "logps/rejected": -277.6203308105469,
      "loss": 0.4801,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.9825541377067566,
      "rewards/margins": 1.5490392446517944,
      "rewards/rejected": -2.5315933227539062,
      "step": 1620
    },
    {
      "epoch": 0.84,
      "learning_rate": 3.9978963472939373e-07,
      "logits/chosen": -2.838963031768799,
      "logits/rejected": -2.808168411254883,
      "logps/chosen": -291.43280029296875,
      "logps/rejected": -260.65203857421875,
      "loss": 0.48,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7560056447982788,
      "rewards/margins": 1.1872189044952393,
      "rewards/rejected": -1.9432246685028076,
      "step": 1630
    },
    {
      "epoch": 0.85,
      "learning_rate": 3.9883342895391085e-07,
      "logits/chosen": -2.815406084060669,
      "logits/rejected": -2.7723686695098877,
      "logps/chosen": -270.00689697265625,
      "logps/rejected": -229.3192901611328,
      "loss": 0.546,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.42303770780563354,
      "rewards/margins": 2.0215001106262207,
      "rewards/rejected": -2.4445383548736572,
      "step": 1640
    },
    {
      "epoch": 0.85,
      "learning_rate": 3.9787722317842796e-07,
      "logits/chosen": -2.89304256439209,
      "logits/rejected": -2.849522113800049,
      "logps/chosen": -351.61968994140625,
      "logps/rejected": -226.35800170898438,
      "loss": 0.5355,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.039799273014068604,
      "rewards/margins": 1.9888496398925781,
      "rewards/rejected": -1.9490505456924438,
      "step": 1650
    },
    {
      "epoch": 0.86,
      "learning_rate": 3.969210174029451e-07,
      "logits/chosen": -2.7271950244903564,
      "logits/rejected": -2.7782604694366455,
      "logps/chosen": -182.22679138183594,
      "logps/rejected": -258.85784912109375,
      "loss": 0.5878,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.30569443106651306,
      "rewards/margins": 2.009462833404541,
      "rewards/rejected": -2.315157175064087,
      "step": 1660
    },
    {
      "epoch": 0.86,
      "learning_rate": 3.959648116274622e-07,
      "logits/chosen": -2.7675626277923584,
      "logits/rejected": -2.7918038368225098,
      "logps/chosen": -258.5990295410156,
      "logps/rejected": -230.567138671875,
      "loss": 0.6044,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6162198781967163,
      "rewards/margins": 1.2834047079086304,
      "rewards/rejected": -1.8996245861053467,
      "step": 1670
    },
    {
      "epoch": 0.87,
      "learning_rate": 3.950086058519793e-07,
      "logits/chosen": -2.922581195831299,
      "logits/rejected": -2.8593482971191406,
      "logps/chosen": -224.3607940673828,
      "logps/rejected": -256.91510009765625,
      "loss": 0.5717,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.4705128073692322,
      "rewards/margins": 1.2131963968276978,
      "rewards/rejected": -1.6837093830108643,
      "step": 1680
    },
    {
      "epoch": 0.87,
      "learning_rate": 3.9405240007649643e-07,
      "logits/chosen": -2.9224143028259277,
      "logits/rejected": -2.942783832550049,
      "logps/chosen": -216.39816284179688,
      "logps/rejected": -272.4553527832031,
      "loss": 0.5066,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.5551620125770569,
      "rewards/margins": 1.4193694591522217,
      "rewards/rejected": -1.9745315313339233,
      "step": 1690
    },
    {
      "epoch": 0.88,
      "learning_rate": 3.9309619430101354e-07,
      "logits/chosen": -2.8787567615509033,
      "logits/rejected": -2.8499011993408203,
      "logps/chosen": -241.4861297607422,
      "logps/rejected": -210.9620361328125,
      "loss": 0.5233,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.7351746559143066,
      "rewards/margins": 1.017896294593811,
      "rewards/rejected": -1.7530708312988281,
      "step": 1700
    },
    {
      "epoch": 0.88,
      "eval_logits/chosen": -2.709693431854248,
      "eval_logits/rejected": -2.686978340148926,
      "eval_logps/chosen": -258.8084411621094,
      "eval_logps/rejected": -277.92047119140625,
      "eval_loss": 0.5205972790718079,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -0.4573337435722351,
      "eval_rewards/margins": 1.637721300125122,
      "eval_rewards/rejected": -2.095055103302002,
      "eval_runtime": 55.0835,
      "eval_samples_per_second": 18.154,
      "eval_steps_per_second": 0.29,
      "step": 1700
    },
    {
      "epoch": 0.88,
      "learning_rate": 3.9213998852553066e-07,
      "logits/chosen": -2.900834798812866,
      "logits/rejected": -2.703029155731201,
      "logps/chosen": -338.3115539550781,
      "logps/rejected": -326.6482238769531,
      "loss": 0.6064,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -1.00930917263031,
      "rewards/margins": 1.1334011554718018,
      "rewards/rejected": -2.1427102088928223,
      "step": 1710
    },
    {
      "epoch": 0.89,
      "learning_rate": 3.9118378275004783e-07,
      "logits/chosen": -2.888641119003296,
      "logits/rejected": -2.817422389984131,
      "logps/chosen": -339.2339172363281,
      "logps/rejected": -273.8936462402344,
      "loss": 0.5537,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8813110589981079,
      "rewards/margins": 1.3287475109100342,
      "rewards/rejected": -2.2100586891174316,
      "step": 1720
    },
    {
      "epoch": 0.89,
      "learning_rate": 3.9022757697456494e-07,
      "logits/chosen": -2.739957094192505,
      "logits/rejected": -2.78080677986145,
      "logps/chosen": -356.21844482421875,
      "logps/rejected": -331.55096435546875,
      "loss": 0.5099,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.5665701627731323,
      "rewards/margins": 1.0891746282577515,
      "rewards/rejected": -1.6557449102401733,
      "step": 1730
    },
    {
      "epoch": 0.9,
      "learning_rate": 3.8927137119908206e-07,
      "logits/chosen": -2.9097769260406494,
      "logits/rejected": -2.848907947540283,
      "logps/chosen": -305.66607666015625,
      "logps/rejected": -211.9135284423828,
      "loss": 0.487,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.30798807740211487,
      "rewards/margins": 2.1856961250305176,
      "rewards/rejected": -2.4936842918395996,
      "step": 1740
    },
    {
      "epoch": 0.9,
      "learning_rate": 3.883151654235992e-07,
      "logits/chosen": -2.831984281539917,
      "logits/rejected": -2.8497231006622314,
      "logps/chosen": -256.02667236328125,
      "logps/rejected": -253.0034942626953,
      "loss": 0.5203,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.10425261408090591,
      "rewards/margins": 1.9909296035766602,
      "rewards/rejected": -2.095182180404663,
      "step": 1750
    },
    {
      "epoch": 0.91,
      "learning_rate": 3.873589596481163e-07,
      "logits/chosen": -2.765052080154419,
      "logits/rejected": -2.8637542724609375,
      "logps/chosen": -267.7926025390625,
      "logps/rejected": -239.08718872070312,
      "loss": 0.5506,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.7126263976097107,
      "rewards/margins": 0.9376744031906128,
      "rewards/rejected": -1.6503007411956787,
      "step": 1760
    },
    {
      "epoch": 0.91,
      "learning_rate": 3.864027538726334e-07,
      "logits/chosen": -2.8235788345336914,
      "logits/rejected": -2.7703769207000732,
      "logps/chosen": -227.66281127929688,
      "logps/rejected": -227.4187469482422,
      "loss": 0.5707,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.47516727447509766,
      "rewards/margins": 1.8380186557769775,
      "rewards/rejected": -2.313185691833496,
      "step": 1770
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.8544654809715047e-07,
      "logits/chosen": -2.840291976928711,
      "logits/rejected": -2.889273166656494,
      "logps/chosen": -289.7173156738281,
      "logps/rejected": -289.07391357421875,
      "loss": 0.5463,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -1.0754880905151367,
      "rewards/margins": 1.31435227394104,
      "rewards/rejected": -2.3898403644561768,
      "step": 1780
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.844903423216676e-07,
      "logits/chosen": -2.862814426422119,
      "logits/rejected": -2.8419394493103027,
      "logps/chosen": -256.5997619628906,
      "logps/rejected": -221.2139434814453,
      "loss": 0.5288,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.6081517338752747,
      "rewards/margins": 0.817557156085968,
      "rewards/rejected": -1.4257088899612427,
      "step": 1790
    },
    {
      "epoch": 0.93,
      "learning_rate": 3.835341365461847e-07,
      "logits/chosen": -2.836991786956787,
      "logits/rejected": -2.78855562210083,
      "logps/chosen": -302.5685119628906,
      "logps/rejected": -237.11209106445312,
      "loss": 0.5593,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.189387708902359,
      "rewards/margins": 1.4565317630767822,
      "rewards/rejected": -1.6459195613861084,
      "step": 1800
    },
    {
      "epoch": 0.93,
      "eval_logits/chosen": -2.651865005493164,
      "eval_logits/rejected": -2.6221344470977783,
      "eval_logps/chosen": -259.7433166503906,
      "eval_logps/rejected": -278.97027587890625,
      "eval_loss": 0.523062527179718,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -0.5508205890655518,
      "eval_rewards/margins": 1.649214267730713,
      "eval_rewards/rejected": -2.2000348567962646,
      "eval_runtime": 52.7667,
      "eval_samples_per_second": 18.951,
      "eval_steps_per_second": 0.303,
      "step": 1800
    },
    {
      "epoch": 0.93,
      "learning_rate": 3.825779307707018e-07,
      "logits/chosen": -2.805868625640869,
      "logits/rejected": -2.8683719635009766,
      "logps/chosen": -165.62680053710938,
      "logps/rejected": -188.5421600341797,
      "loss": 0.5336,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.4086759090423584,
      "rewards/margins": 1.5789250135421753,
      "rewards/rejected": -1.9876010417938232,
      "step": 1810
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.8162172499521893e-07,
      "logits/chosen": -2.823812961578369,
      "logits/rejected": -2.8563215732574463,
      "logps/chosen": -220.8478546142578,
      "logps/rejected": -212.088623046875,
      "loss": 0.5532,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.7714720368385315,
      "rewards/margins": 1.1308372020721436,
      "rewards/rejected": -1.9023091793060303,
      "step": 1820
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.8066551921973605e-07,
      "logits/chosen": -2.772951126098633,
      "logits/rejected": -2.741703510284424,
      "logps/chosen": -282.5356750488281,
      "logps/rejected": -204.34359741210938,
      "loss": 0.4889,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.4399307668209076,
      "rewards/margins": 1.7154382467269897,
      "rewards/rejected": -2.1553690433502197,
      "step": 1830
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.7970931344425316e-07,
      "logits/chosen": -2.822625160217285,
      "logits/rejected": -2.813814640045166,
      "logps/chosen": -298.0512390136719,
      "logps/rejected": -247.30172729492188,
      "loss": 0.4864,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.5513595938682556,
      "rewards/margins": 0.6814876198768616,
      "rewards/rejected": -1.2328474521636963,
      "step": 1840
    },
    {
      "epoch": 0.96,
      "learning_rate": 3.787531076687703e-07,
      "logits/chosen": -2.7317397594451904,
      "logits/rejected": -2.7448277473449707,
      "logps/chosen": -269.85760498046875,
      "logps/rejected": -223.9963836669922,
      "loss": 0.5273,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.41241344809532166,
      "rewards/margins": 2.08837890625,
      "rewards/rejected": -2.5007922649383545,
      "step": 1850
    },
    {
      "epoch": 0.96,
      "learning_rate": 3.7779690189328745e-07,
      "logits/chosen": -2.812678813934326,
      "logits/rejected": -2.8333404064178467,
      "logps/chosen": -280.35247802734375,
      "logps/rejected": -255.755126953125,
      "loss": 0.4633,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -0.533105194568634,
      "rewards/margins": 1.1613143682479858,
      "rewards/rejected": -1.694419503211975,
      "step": 1860
    },
    {
      "epoch": 0.97,
      "learning_rate": 3.7684069611780456e-07,
      "logits/chosen": -2.824018716812134,
      "logits/rejected": -2.789066791534424,
      "logps/chosen": -230.8186798095703,
      "logps/rejected": -197.3396453857422,
      "loss": 0.565,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.8623602986335754,
      "rewards/margins": 0.8971187472343445,
      "rewards/rejected": -1.7594791650772095,
      "step": 1870
    },
    {
      "epoch": 0.97,
      "learning_rate": 3.758844903423217e-07,
      "logits/chosen": -2.731091260910034,
      "logits/rejected": -2.8013782501220703,
      "logps/chosen": -261.1441650390625,
      "logps/rejected": -285.99298095703125,
      "loss": 0.5784,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": -1.0055458545684814,
      "rewards/margins": 1.3556736707687378,
      "rewards/rejected": -2.3612194061279297,
      "step": 1880
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.749282845668388e-07,
      "logits/chosen": -2.979485034942627,
      "logits/rejected": -2.8463826179504395,
      "logps/chosen": -279.7747497558594,
      "logps/rejected": -281.71881103515625,
      "loss": 0.5474,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.5681439638137817,
      "rewards/margins": 1.333145022392273,
      "rewards/rejected": -1.9012889862060547,
      "step": 1890
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.739720787913559e-07,
      "logits/chosen": -2.8072428703308105,
      "logits/rejected": -2.8444907665252686,
      "logps/chosen": -318.6991882324219,
      "logps/rejected": -286.9081726074219,
      "loss": 0.4967,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.501719057559967,
      "rewards/margins": 1.7894643545150757,
      "rewards/rejected": -2.2911829948425293,
      "step": 1900
    },
    {
      "epoch": 0.98,
      "eval_logits/chosen": -2.6878409385681152,
      "eval_logits/rejected": -2.65635347366333,
      "eval_logps/chosen": -259.57489013671875,
      "eval_logps/rejected": -276.53948974609375,
      "eval_loss": 0.528998613357544,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -0.5339791178703308,
      "eval_rewards/margins": 1.4229780435562134,
      "eval_rewards/rejected": -1.9569573402404785,
      "eval_runtime": 58.1447,
      "eval_samples_per_second": 17.198,
      "eval_steps_per_second": 0.275,
      "step": 1900
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.73015873015873e-07,
      "logits/chosen": -2.8797740936279297,
      "logits/rejected": -2.8204915523529053,
      "logps/chosen": -275.71417236328125,
      "logps/rejected": -218.75216674804688,
      "loss": 0.497,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": -0.2984248995780945,
      "rewards/margins": 0.8872405886650085,
      "rewards/rejected": -1.185665488243103,
      "step": 1910
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.7205966724039014e-07,
      "logits/chosen": -2.728538990020752,
      "logits/rejected": -2.7202653884887695,
      "logps/chosen": -326.10626220703125,
      "logps/rejected": -258.46539306640625,
      "loss": 0.4882,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": -0.4980931878089905,
      "rewards/margins": 1.183232069015503,
      "rewards/rejected": -1.6813253164291382,
      "step": 1920
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.711034614649072e-07,
      "logits/chosen": -2.7934298515319824,
      "logits/rejected": -2.7393717765808105,
      "logps/chosen": -288.08892822265625,
      "logps/rejected": -230.5961151123047,
      "loss": 0.4772,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.8787330389022827,
      "rewards/margins": 1.967394232749939,
      "rewards/rejected": -2.8461270332336426,
      "step": 1930
    },
    {
      "epoch": 1.0,
      "learning_rate": 3.701472556894243e-07,
      "logits/chosen": -2.742077350616455,
      "logits/rejected": -2.6756367683410645,
      "logps/chosen": -230.4021759033203,
      "logps/rejected": -311.9582214355469,
      "loss": 0.3813,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.0876777321100235,
      "rewards/margins": 2.651371479034424,
      "rewards/rejected": -2.7390494346618652,
      "step": 1940
    },
    {
      "epoch": 1.01,
      "learning_rate": 3.6919104991394144e-07,
      "logits/chosen": -2.8869168758392334,
      "logits/rejected": -2.870358943939209,
      "logps/chosen": -180.28982543945312,
      "logps/rejected": -222.55810546875,
      "loss": 0.0952,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.38509073853492737,
      "rewards/margins": 3.711843490600586,
      "rewards/rejected": -3.3267529010772705,
      "step": 1950
    },
    {
      "epoch": 1.01,
      "learning_rate": 3.6823484413845855e-07,
      "logits/chosen": -2.7434253692626953,
      "logits/rejected": -2.826244354248047,
      "logps/chosen": -290.17999267578125,
      "logps/rejected": -359.95318603515625,
      "loss": 0.0795,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.3888338804244995,
      "rewards/margins": 6.838004112243652,
      "rewards/rejected": -5.449170112609863,
      "step": 1960
    },
    {
      "epoch": 1.02,
      "learning_rate": 3.6727863836297567e-07,
      "logits/chosen": -2.761378765106201,
      "logits/rejected": -2.8128793239593506,
      "logps/chosen": -196.734619140625,
      "logps/rejected": -248.90444946289062,
      "loss": 0.0896,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.7179908752441406,
      "rewards/margins": 4.64093542098999,
      "rewards/rejected": -3.9229445457458496,
      "step": 1970
    },
    {
      "epoch": 1.02,
      "learning_rate": 3.663224325874928e-07,
      "logits/chosen": -2.7781982421875,
      "logits/rejected": -2.745850086212158,
      "logps/chosen": -230.58413696289062,
      "logps/rejected": -243.18405151367188,
      "loss": 0.1075,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.2712101638317108,
      "rewards/margins": 3.9006011486053467,
      "rewards/rejected": -4.171811103820801,
      "step": 1980
    },
    {
      "epoch": 1.03,
      "learning_rate": 3.653662268120099e-07,
      "logits/chosen": -2.69258975982666,
      "logits/rejected": -2.718759775161743,
      "logps/chosen": -263.413818359375,
      "logps/rejected": -258.7752990722656,
      "loss": 0.0765,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.1363146305084229,
      "rewards/margins": 5.461094856262207,
      "rewards/rejected": -4.324779987335205,
      "step": 1990
    },
    {
      "epoch": 1.03,
      "learning_rate": 3.6441002103652707e-07,
      "logits/chosen": -2.7689287662506104,
      "logits/rejected": -2.7180933952331543,
      "logps/chosen": -184.6995391845703,
      "logps/rejected": -219.4838409423828,
      "loss": 0.0921,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.8591575622558594,
      "rewards/margins": 3.6370902061462402,
      "rewards/rejected": -4.4962477684021,
      "step": 2000
    },
    {
      "epoch": 1.03,
      "eval_logits/chosen": -2.634498119354248,
      "eval_logits/rejected": -2.6040313243865967,
      "eval_logps/chosen": -265.61114501953125,
      "eval_logps/rejected": -288.5853576660156,
      "eval_loss": 0.5368282198905945,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -1.1376045942306519,
      "eval_rewards/margins": 2.023937463760376,
      "eval_rewards/rejected": -3.1615419387817383,
      "eval_runtime": 57.4706,
      "eval_samples_per_second": 17.4,
      "eval_steps_per_second": 0.278,
      "step": 2000
    },
    {
      "epoch": 1.04,
      "learning_rate": 3.634538152610442e-07,
      "logits/chosen": -2.779973268508911,
      "logits/rejected": -2.83324933052063,
      "logps/chosen": -228.81320190429688,
      "logps/rejected": -310.46905517578125,
      "loss": 0.0672,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.3947059214115143,
      "rewards/margins": 5.533167362213135,
      "rewards/rejected": -5.138461112976074,
      "step": 2010
    },
    {
      "epoch": 1.04,
      "learning_rate": 3.624976094855613e-07,
      "logits/chosen": -2.7965312004089355,
      "logits/rejected": -2.7170250415802,
      "logps/chosen": -250.6485137939453,
      "logps/rejected": -262.75152587890625,
      "loss": 0.0705,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.7664440870285034,
      "rewards/margins": 7.152462959289551,
      "rewards/rejected": -6.386018753051758,
      "step": 2020
    },
    {
      "epoch": 1.05,
      "learning_rate": 3.615414037100784e-07,
      "logits/chosen": -2.6802003383636475,
      "logits/rejected": -2.638892650604248,
      "logps/chosen": -275.2335205078125,
      "logps/rejected": -222.55178833007812,
      "loss": 0.099,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.053186558187007904,
      "rewards/margins": 4.206416606903076,
      "rewards/rejected": -4.259603023529053,
      "step": 2030
    },
    {
      "epoch": 1.05,
      "learning_rate": 3.6058519793459553e-07,
      "logits/chosen": -2.795947790145874,
      "logits/rejected": -2.8200221061706543,
      "logps/chosen": -189.23316955566406,
      "logps/rejected": -218.7393341064453,
      "loss": 0.0855,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.7773109674453735,
      "rewards/margins": 5.873230457305908,
      "rewards/rejected": -5.095919132232666,
      "step": 2040
    },
    {
      "epoch": 1.06,
      "learning_rate": 3.5962899215911265e-07,
      "logits/chosen": -2.630261182785034,
      "logits/rejected": -2.57206392288208,
      "logps/chosen": -217.30972290039062,
      "logps/rejected": -250.2468719482422,
      "loss": 0.0676,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.0636889785528183,
      "rewards/margins": 4.82668399810791,
      "rewards/rejected": -4.8903727531433105,
      "step": 2050
    },
    {
      "epoch": 1.06,
      "learning_rate": 3.5867278638362976e-07,
      "logits/chosen": -2.601591110229492,
      "logits/rejected": -2.6793808937072754,
      "logps/chosen": -240.95700073242188,
      "logps/rejected": -273.2774353027344,
      "loss": 0.0734,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.05607228726148605,
      "rewards/margins": 5.447501182556152,
      "rewards/rejected": -5.391427516937256,
      "step": 2060
    },
    {
      "epoch": 1.07,
      "learning_rate": 3.577165806081469e-07,
      "logits/chosen": -2.7586188316345215,
      "logits/rejected": -2.804933547973633,
      "logps/chosen": -262.1355895996094,
      "logps/rejected": -302.13507080078125,
      "loss": 0.095,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.5269735455513,
      "rewards/margins": 6.823977470397949,
      "rewards/rejected": -6.297003746032715,
      "step": 2070
    },
    {
      "epoch": 1.07,
      "learning_rate": 3.56760374832664e-07,
      "logits/chosen": -2.906247615814209,
      "logits/rejected": -2.7534871101379395,
      "logps/chosen": -250.2699737548828,
      "logps/rejected": -261.11962890625,
      "loss": 0.0438,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.4384024143218994,
      "rewards/margins": 6.545752048492432,
      "rewards/rejected": -5.107348442077637,
      "step": 2080
    },
    {
      "epoch": 1.08,
      "learning_rate": 3.5580416905718106e-07,
      "logits/chosen": -2.655647039413452,
      "logits/rejected": -2.770217180252075,
      "logps/chosen": -294.7089538574219,
      "logps/rejected": -271.32037353515625,
      "loss": 0.1017,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.16056032478809357,
      "rewards/margins": 4.826616287231445,
      "rewards/rejected": -4.666056156158447,
      "step": 2090
    },
    {
      "epoch": 1.08,
      "learning_rate": 3.5484796328169817e-07,
      "logits/chosen": -2.8367366790771484,
      "logits/rejected": -2.7900490760803223,
      "logps/chosen": -235.642333984375,
      "logps/rejected": -272.7825012207031,
      "loss": 0.0733,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.0952982902526855,
      "rewards/margins": 5.964905261993408,
      "rewards/rejected": -4.8696064949035645,
      "step": 2100
    },
    {
      "epoch": 1.08,
      "eval_logits/chosen": -2.659477949142456,
      "eval_logits/rejected": -2.628939151763916,
      "eval_logps/chosen": -265.2799377441406,
      "eval_logps/rejected": -291.42083740234375,
      "eval_loss": 0.5452979803085327,
      "eval_rewards/accuracies": 0.765625,
      "eval_rewards/chosen": -1.1044831275939941,
      "eval_rewards/margins": 2.3406097888946533,
      "eval_rewards/rejected": -3.4450929164886475,
      "eval_runtime": 55.5581,
      "eval_samples_per_second": 17.999,
      "eval_steps_per_second": 0.288,
      "step": 2100
    },
    {
      "epoch": 1.09,
      "learning_rate": 3.538917575062153e-07,
      "logits/chosen": -2.700606346130371,
      "logits/rejected": -2.6558995246887207,
      "logps/chosen": -210.18374633789062,
      "logps/rejected": -282.9020080566406,
      "loss": 0.1171,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.15502862632274628,
      "rewards/margins": 5.092817783355713,
      "rewards/rejected": -4.937788963317871,
      "step": 2110
    },
    {
      "epoch": 1.09,
      "learning_rate": 3.529355517307324e-07,
      "logits/chosen": -2.8686940670013428,
      "logits/rejected": -2.740063190460205,
      "logps/chosen": -269.2464904785156,
      "logps/rejected": -366.86639404296875,
      "loss": 0.0607,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.0339075326919556,
      "rewards/margins": 8.14382266998291,
      "rewards/rejected": -7.109914302825928,
      "step": 2120
    },
    {
      "epoch": 1.1,
      "learning_rate": 3.519793459552495e-07,
      "logits/chosen": -2.823467969894409,
      "logits/rejected": -2.833052635192871,
      "logps/chosen": -280.67706298828125,
      "logps/rejected": -302.888671875,
      "loss": 0.0767,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": 0.975002646446228,
      "rewards/margins": 6.0545806884765625,
      "rewards/rejected": -5.079577445983887,
      "step": 2130
    },
    {
      "epoch": 1.1,
      "learning_rate": 3.510231401797667e-07,
      "logits/chosen": -2.9246203899383545,
      "logits/rejected": -2.8968777656555176,
      "logps/chosen": -409.8377380371094,
      "logps/rejected": -376.01153564453125,
      "loss": 0.0978,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6437445878982544,
      "rewards/margins": 7.857232570648193,
      "rewards/rejected": -7.2134881019592285,
      "step": 2140
    },
    {
      "epoch": 1.11,
      "learning_rate": 3.500669344042838e-07,
      "logits/chosen": -2.8815579414367676,
      "logits/rejected": -2.696906566619873,
      "logps/chosen": -312.1972961425781,
      "logps/rejected": -323.14031982421875,
      "loss": 0.0847,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.4120159149169922,
      "rewards/margins": 6.041172027587891,
      "rewards/rejected": -5.629156112670898,
      "step": 2150
    },
    {
      "epoch": 1.12,
      "learning_rate": 3.491107286288009e-07,
      "logits/chosen": -2.869086265563965,
      "logits/rejected": -2.794461250305176,
      "logps/chosen": -230.935302734375,
      "logps/rejected": -229.4247283935547,
      "loss": 0.1155,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.5138686895370483,
      "rewards/margins": 6.901867866516113,
      "rewards/rejected": -5.387998580932617,
      "step": 2160
    },
    {
      "epoch": 1.12,
      "learning_rate": 3.4815452285331803e-07,
      "logits/chosen": -2.906574249267578,
      "logits/rejected": -2.918184280395508,
      "logps/chosen": -435.5089416503906,
      "logps/rejected": -367.09820556640625,
      "loss": 0.0949,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.4653266966342926,
      "rewards/margins": 4.6506667137146,
      "rewards/rejected": -4.18533992767334,
      "step": 2170
    },
    {
      "epoch": 1.13,
      "learning_rate": 3.4719831707783515e-07,
      "logits/chosen": -2.6144165992736816,
      "logits/rejected": -2.6169540882110596,
      "logps/chosen": -259.0269470214844,
      "logps/rejected": -253.59518432617188,
      "loss": 0.1058,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.8547903895378113,
      "rewards/margins": 5.843932151794434,
      "rewards/rejected": -4.989141941070557,
      "step": 2180
    },
    {
      "epoch": 1.13,
      "learning_rate": 3.4624211130235227e-07,
      "logits/chosen": -2.905179738998413,
      "logits/rejected": -2.836651086807251,
      "logps/chosen": -208.110107421875,
      "logps/rejected": -241.3552703857422,
      "loss": 0.086,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6082350015640259,
      "rewards/margins": 6.723033905029297,
      "rewards/rejected": -6.114798545837402,
      "step": 2190
    },
    {
      "epoch": 1.14,
      "learning_rate": 3.452859055268694e-07,
      "logits/chosen": -2.7746129035949707,
      "logits/rejected": -2.7575089931488037,
      "logps/chosen": -204.41021728515625,
      "logps/rejected": -263.98004150390625,
      "loss": 0.0972,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.20659780502319336,
      "rewards/margins": 5.700135707855225,
      "rewards/rejected": -5.90673303604126,
      "step": 2200
    },
    {
      "epoch": 1.14,
      "eval_logits/chosen": -2.670933246612549,
      "eval_logits/rejected": -2.647088050842285,
      "eval_logps/chosen": -271.1505126953125,
      "eval_logps/rejected": -296.7934265136719,
      "eval_loss": 0.557054877281189,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -1.6915401220321655,
      "eval_rewards/margins": 2.2908077239990234,
      "eval_rewards/rejected": -3.9823474884033203,
      "eval_runtime": 55.8179,
      "eval_samples_per_second": 17.915,
      "eval_steps_per_second": 0.287,
      "step": 2200
    },
    {
      "epoch": 1.14,
      "learning_rate": 3.443296997513865e-07,
      "logits/chosen": -2.8264622688293457,
      "logits/rejected": -2.802203416824341,
      "logps/chosen": -317.52960205078125,
      "logps/rejected": -342.2868957519531,
      "loss": 0.0822,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 1.2196967601776123,
      "rewards/margins": 7.658734321594238,
      "rewards/rejected": -6.439038276672363,
      "step": 2210
    },
    {
      "epoch": 1.15,
      "learning_rate": 3.433734939759036e-07,
      "logits/chosen": -2.8357937335968018,
      "logits/rejected": -2.8530819416046143,
      "logps/chosen": -235.8030548095703,
      "logps/rejected": -277.0107116699219,
      "loss": 0.1058,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.7737981677055359,
      "rewards/margins": 6.4052414894104,
      "rewards/rejected": -5.631443023681641,
      "step": 2220
    },
    {
      "epoch": 1.15,
      "learning_rate": 3.4241728820042073e-07,
      "logits/chosen": -2.7552199363708496,
      "logits/rejected": -2.7428534030914307,
      "logps/chosen": -227.3050079345703,
      "logps/rejected": -270.3177185058594,
      "loss": 0.121,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": -0.6933164000511169,
      "rewards/margins": 4.165007591247559,
      "rewards/rejected": -4.858323574066162,
      "step": 2230
    },
    {
      "epoch": 1.16,
      "learning_rate": 3.4146108242493784e-07,
      "logits/chosen": -2.7783877849578857,
      "logits/rejected": -2.8269574642181396,
      "logps/chosen": -289.098388671875,
      "logps/rejected": -384.05474853515625,
      "loss": 0.1735,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.44400936365127563,
      "rewards/margins": 7.5069899559021,
      "rewards/rejected": -7.062979698181152,
      "step": 2240
    },
    {
      "epoch": 1.16,
      "learning_rate": 3.405048766494549e-07,
      "logits/chosen": -2.576467990875244,
      "logits/rejected": -2.569551706314087,
      "logps/chosen": -264.085205078125,
      "logps/rejected": -242.80126953125,
      "loss": 0.2203,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.19903890788555145,
      "rewards/margins": 5.752175331115723,
      "rewards/rejected": -5.553135871887207,
      "step": 2250
    },
    {
      "epoch": 1.17,
      "learning_rate": 3.39548670873972e-07,
      "logits/chosen": -2.780787944793701,
      "logits/rejected": -2.7364470958709717,
      "logps/chosen": -327.9325866699219,
      "logps/rejected": -381.19915771484375,
      "loss": 0.0916,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.037799786776304245,
      "rewards/margins": 5.7476677894592285,
      "rewards/rejected": -5.785468101501465,
      "step": 2260
    },
    {
      "epoch": 1.17,
      "learning_rate": 3.3859246509848914e-07,
      "logits/chosen": -2.716096878051758,
      "logits/rejected": -2.7619426250457764,
      "logps/chosen": -270.20281982421875,
      "logps/rejected": -309.69500732421875,
      "loss": 0.0833,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.1129147857427597,
      "rewards/margins": 5.1096320152282715,
      "rewards/rejected": -5.22254753112793,
      "step": 2270
    },
    {
      "epoch": 1.18,
      "learning_rate": 3.376362593230063e-07,
      "logits/chosen": -2.633354902267456,
      "logits/rejected": -2.5907938480377197,
      "logps/chosen": -214.78662109375,
      "logps/rejected": -303.368408203125,
      "loss": 0.0682,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.21891649067401886,
      "rewards/margins": 6.782713413238525,
      "rewards/rejected": -6.5637969970703125,
      "step": 2280
    },
    {
      "epoch": 1.18,
      "learning_rate": 3.366800535475234e-07,
      "logits/chosen": -2.788681745529175,
      "logits/rejected": -2.6701889038085938,
      "logps/chosen": -367.4220886230469,
      "logps/rejected": -265.5601501464844,
      "loss": 0.0699,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 2.7071707248687744,
      "rewards/margins": 8.423349380493164,
      "rewards/rejected": -5.716177940368652,
      "step": 2290
    },
    {
      "epoch": 1.19,
      "learning_rate": 3.3572384777204054e-07,
      "logits/chosen": -2.6153483390808105,
      "logits/rejected": -2.575199842453003,
      "logps/chosen": -398.6623229980469,
      "logps/rejected": -343.8503112792969,
      "loss": 0.1058,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.5428920984268188,
      "rewards/margins": 7.921414852142334,
      "rewards/rejected": -7.3785223960876465,
      "step": 2300
    },
    {
      "epoch": 1.19,
      "eval_logits/chosen": -2.5798184871673584,
      "eval_logits/rejected": -2.5527260303497314,
      "eval_logps/chosen": -264.8562927246094,
      "eval_logps/rejected": -295.91058349609375,
      "eval_loss": 0.5789377689361572,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -1.0621176958084106,
      "eval_rewards/margins": 2.8319482803344727,
      "eval_rewards/rejected": -3.8940658569335938,
      "eval_runtime": 58.0073,
      "eval_samples_per_second": 17.239,
      "eval_steps_per_second": 0.276,
      "step": 2300
    },
    {
      "epoch": 1.19,
      "learning_rate": 3.3476764199655765e-07,
      "logits/chosen": -2.513836145401001,
      "logits/rejected": -2.6243300437927246,
      "logps/chosen": -219.6814422607422,
      "logps/rejected": -218.55807495117188,
      "loss": 0.1111,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.24565038084983826,
      "rewards/margins": 4.5390119552612305,
      "rewards/rejected": -4.293361663818359,
      "step": 2310
    },
    {
      "epoch": 1.2,
      "learning_rate": 3.3381143622107477e-07,
      "logits/chosen": -2.8270373344421387,
      "logits/rejected": -2.7377943992614746,
      "logps/chosen": -401.356201171875,
      "logps/rejected": -353.20965576171875,
      "loss": 0.058,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6988257169723511,
      "rewards/margins": 6.860513210296631,
      "rewards/rejected": -6.161687850952148,
      "step": 2320
    },
    {
      "epoch": 1.2,
      "learning_rate": 3.328552304455919e-07,
      "logits/chosen": -2.717745542526245,
      "logits/rejected": -2.673698902130127,
      "logps/chosen": -268.2499084472656,
      "logps/rejected": -293.6933898925781,
      "loss": 0.0778,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.8076402544975281,
      "rewards/margins": 7.105103969573975,
      "rewards/rejected": -6.297463417053223,
      "step": 2330
    },
    {
      "epoch": 1.21,
      "learning_rate": 3.31899024670109e-07,
      "logits/chosen": -2.759124517440796,
      "logits/rejected": -2.744246006011963,
      "logps/chosen": -315.86248779296875,
      "logps/rejected": -262.46099853515625,
      "loss": 0.0721,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.9767075777053833,
      "rewards/margins": 4.7864885330200195,
      "rewards/rejected": -5.7631964683532715,
      "step": 2340
    },
    {
      "epoch": 1.21,
      "learning_rate": 3.309428188946261e-07,
      "logits/chosen": -2.6659247875213623,
      "logits/rejected": -2.627288341522217,
      "logps/chosen": -165.9207305908203,
      "logps/rejected": -166.2641143798828,
      "loss": 0.1052,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.17963728308677673,
      "rewards/margins": 4.340859413146973,
      "rewards/rejected": -4.520496368408203,
      "step": 2350
    },
    {
      "epoch": 1.22,
      "learning_rate": 3.2998661311914323e-07,
      "logits/chosen": -2.6454150676727295,
      "logits/rejected": -2.5655908584594727,
      "logps/chosen": -195.2259979248047,
      "logps/rejected": -328.01806640625,
      "loss": 0.0714,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6261202096939087,
      "rewards/margins": 8.00461196899414,
      "rewards/rejected": -7.3784918785095215,
      "step": 2360
    },
    {
      "epoch": 1.22,
      "learning_rate": 3.2903040734366035e-07,
      "logits/chosen": -2.7958927154541016,
      "logits/rejected": -2.7633419036865234,
      "logps/chosen": -299.79107666015625,
      "logps/rejected": -378.6677551269531,
      "loss": 0.0659,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.1539552211761475,
      "rewards/margins": 7.467595100402832,
      "rewards/rejected": -6.31364107131958,
      "step": 2370
    },
    {
      "epoch": 1.23,
      "learning_rate": 3.2807420156817746e-07,
      "logits/chosen": -2.7090749740600586,
      "logits/rejected": -2.64817476272583,
      "logps/chosen": -226.72525024414062,
      "logps/rejected": -330.6046142578125,
      "loss": 0.1011,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.004512411542236805,
      "rewards/margins": 5.72462272644043,
      "rewards/rejected": -5.729135990142822,
      "step": 2380
    },
    {
      "epoch": 1.23,
      "learning_rate": 3.271179957926946e-07,
      "logits/chosen": -2.447643995285034,
      "logits/rejected": -2.5474460124969482,
      "logps/chosen": -325.9497985839844,
      "logps/rejected": -339.540771484375,
      "loss": 0.0895,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.07166711986064911,
      "rewards/margins": 5.96669864654541,
      "rewards/rejected": -5.895030975341797,
      "step": 2390
    },
    {
      "epoch": 1.24,
      "learning_rate": 3.261617900172117e-07,
      "logits/chosen": -2.672534465789795,
      "logits/rejected": -2.7197232246398926,
      "logps/chosen": -225.26168823242188,
      "logps/rejected": -283.93212890625,
      "loss": 0.2423,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.4908114969730377,
      "rewards/margins": 6.257862567901611,
      "rewards/rejected": -5.767050743103027,
      "step": 2400
    },
    {
      "epoch": 1.24,
      "eval_logits/chosen": -2.5784032344818115,
      "eval_logits/rejected": -2.5413780212402344,
      "eval_logps/chosen": -266.1980895996094,
      "eval_logps/rejected": -292.55987548828125,
      "eval_loss": 0.545539379119873,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -1.1962969303131104,
      "eval_rewards/margins": 2.362699508666992,
      "eval_rewards/rejected": -3.5589966773986816,
      "eval_runtime": 57.2058,
      "eval_samples_per_second": 17.481,
      "eval_steps_per_second": 0.28,
      "step": 2400
    },
    {
      "epoch": 1.24,
      "learning_rate": 3.2520558424172876e-07,
      "logits/chosen": -2.705650568008423,
      "logits/rejected": -2.6275668144226074,
      "logps/chosen": -204.61109924316406,
      "logps/rejected": -228.20059204101562,
      "loss": 0.0638,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.12385628372430801,
      "rewards/margins": 5.060498237609863,
      "rewards/rejected": -5.184354782104492,
      "step": 2410
    },
    {
      "epoch": 1.25,
      "learning_rate": 3.242493784662459e-07,
      "logits/chosen": -2.7630136013031006,
      "logits/rejected": -2.7599825859069824,
      "logps/chosen": -271.2209777832031,
      "logps/rejected": -319.4446716308594,
      "loss": 0.0914,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.31576937437057495,
      "rewards/margins": 5.5094099044799805,
      "rewards/rejected": -5.193641185760498,
      "step": 2420
    },
    {
      "epoch": 1.25,
      "learning_rate": 3.2329317269076304e-07,
      "logits/chosen": -2.7317633628845215,
      "logits/rejected": -2.655245780944824,
      "logps/chosen": -273.3720397949219,
      "logps/rejected": -324.91253662109375,
      "loss": 0.0998,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.1897385120391846,
      "rewards/margins": 7.156263828277588,
      "rewards/rejected": -5.966525077819824,
      "step": 2430
    },
    {
      "epoch": 1.26,
      "learning_rate": 3.2233696691528016e-07,
      "logits/chosen": -2.7852416038513184,
      "logits/rejected": -2.7786805629730225,
      "logps/chosen": -261.6937255859375,
      "logps/rejected": -367.239501953125,
      "loss": 0.0981,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.2177461385726929,
      "rewards/margins": 8.014082908630371,
      "rewards/rejected": -6.796337127685547,
      "step": 2440
    },
    {
      "epoch": 1.26,
      "learning_rate": 3.2138076113979727e-07,
      "logits/chosen": -2.648454427719116,
      "logits/rejected": -2.6311562061309814,
      "logps/chosen": -240.67056274414062,
      "logps/rejected": -267.9673156738281,
      "loss": 0.0978,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.28647559881210327,
      "rewards/margins": 6.354050636291504,
      "rewards/rejected": -6.067575454711914,
      "step": 2450
    },
    {
      "epoch": 1.27,
      "learning_rate": 3.204245553643144e-07,
      "logits/chosen": -2.7582898139953613,
      "logits/rejected": -2.830904722213745,
      "logps/chosen": -309.43853759765625,
      "logps/rejected": -350.77618408203125,
      "loss": 0.098,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6567636728286743,
      "rewards/margins": 6.094487190246582,
      "rewards/rejected": -5.437722682952881,
      "step": 2460
    },
    {
      "epoch": 1.28,
      "learning_rate": 3.194683495888315e-07,
      "logits/chosen": -2.784090518951416,
      "logits/rejected": -2.7697300910949707,
      "logps/chosen": -277.5585021972656,
      "logps/rejected": -286.3648986816406,
      "loss": 0.1034,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.03639407083392143,
      "rewards/margins": 6.042351245880127,
      "rewards/rejected": -6.078745365142822,
      "step": 2470
    },
    {
      "epoch": 1.28,
      "learning_rate": 3.185121438133486e-07,
      "logits/chosen": -2.758202075958252,
      "logits/rejected": -2.7667107582092285,
      "logps/chosen": -282.9512023925781,
      "logps/rejected": -355.96319580078125,
      "loss": 0.1263,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.692094087600708,
      "rewards/margins": 7.221386909484863,
      "rewards/rejected": -6.529292106628418,
      "step": 2480
    },
    {
      "epoch": 1.29,
      "learning_rate": 3.1755593803786574e-07,
      "logits/chosen": -2.6361289024353027,
      "logits/rejected": -2.656646966934204,
      "logps/chosen": -201.61358642578125,
      "logps/rejected": -313.6552734375,
      "loss": 0.0946,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.4261380434036255,
      "rewards/margins": 5.699584484100342,
      "rewards/rejected": -7.125722408294678,
      "step": 2490
    },
    {
      "epoch": 1.29,
      "learning_rate": 3.1659973226238285e-07,
      "logits/chosen": -2.6961874961853027,
      "logits/rejected": -2.658639669418335,
      "logps/chosen": -205.56558227539062,
      "logps/rejected": -260.9989013671875,
      "loss": 0.1177,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.1720048189163208,
      "rewards/margins": 3.783812999725342,
      "rewards/rejected": -4.955817222595215,
      "step": 2500
    },
    {
      "epoch": 1.29,
      "eval_logits/chosen": -2.518930435180664,
      "eval_logits/rejected": -2.480231285095215,
      "eval_logps/chosen": -272.3760681152344,
      "eval_logps/rejected": -300.9119567871094,
      "eval_loss": 0.5888839960098267,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -1.814096450805664,
      "eval_rewards/margins": 2.580104112625122,
      "eval_rewards/rejected": -4.394200325012207,
      "eval_runtime": 58.8794,
      "eval_samples_per_second": 16.984,
      "eval_steps_per_second": 0.272,
      "step": 2500
    },
    {
      "epoch": 1.3,
      "learning_rate": 3.1564352648689997e-07,
      "logits/chosen": -2.7483344078063965,
      "logits/rejected": -2.7376341819763184,
      "logps/chosen": -269.5032653808594,
      "logps/rejected": -253.87051391601562,
      "loss": 0.1018,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.7494356632232666,
      "rewards/margins": 5.012850761413574,
      "rewards/rejected": -4.263415336608887,
      "step": 2510
    },
    {
      "epoch": 1.3,
      "learning_rate": 3.146873207114171e-07,
      "logits/chosen": -2.7938504219055176,
      "logits/rejected": -2.7508413791656494,
      "logps/chosen": -274.398193359375,
      "logps/rejected": -306.8814697265625,
      "loss": 0.1026,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.5945212244987488,
      "rewards/margins": 7.071564674377441,
      "rewards/rejected": -6.477043151855469,
      "step": 2520
    },
    {
      "epoch": 1.31,
      "learning_rate": 3.137311149359342e-07,
      "logits/chosen": -2.858582019805908,
      "logits/rejected": -2.723261833190918,
      "logps/chosen": -274.79425048828125,
      "logps/rejected": -379.57501220703125,
      "loss": 0.0912,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.21533474326133728,
      "rewards/margins": 5.66866397857666,
      "rewards/rejected": -5.883998870849609,
      "step": 2530
    },
    {
      "epoch": 1.31,
      "learning_rate": 3.127749091604513e-07,
      "logits/chosen": -2.8357625007629395,
      "logits/rejected": -2.814939260482788,
      "logps/chosen": -232.6085662841797,
      "logps/rejected": -294.39849853515625,
      "loss": 0.0899,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.3493742048740387,
      "rewards/margins": 6.373709678649902,
      "rewards/rejected": -6.723084449768066,
      "step": 2540
    },
    {
      "epoch": 1.32,
      "learning_rate": 3.1181870338496843e-07,
      "logits/chosen": -2.679546594619751,
      "logits/rejected": -2.7267134189605713,
      "logps/chosen": -209.9823760986328,
      "logps/rejected": -287.78826904296875,
      "loss": 0.091,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.18076567351818085,
      "rewards/margins": 5.487452983856201,
      "rewards/rejected": -5.306687831878662,
      "step": 2550
    },
    {
      "epoch": 1.32,
      "learning_rate": 3.108624976094856e-07,
      "logits/chosen": -2.5259623527526855,
      "logits/rejected": -2.6586062908172607,
      "logps/chosen": -365.71258544921875,
      "logps/rejected": -242.0026397705078,
      "loss": 0.1047,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.6775692701339722,
      "rewards/margins": 5.460636615753174,
      "rewards/rejected": -4.783067226409912,
      "step": 2560
    },
    {
      "epoch": 1.33,
      "learning_rate": 3.0990629183400266e-07,
      "logits/chosen": -2.5484824180603027,
      "logits/rejected": -2.580888509750366,
      "logps/chosen": -270.9229736328125,
      "logps/rejected": -282.5039367675781,
      "loss": 0.1062,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.9959784746170044,
      "rewards/margins": 7.229222297668457,
      "rewards/rejected": -6.233242988586426,
      "step": 2570
    },
    {
      "epoch": 1.33,
      "learning_rate": 3.089500860585198e-07,
      "logits/chosen": -2.762617588043213,
      "logits/rejected": -2.739429235458374,
      "logps/chosen": -200.62588500976562,
      "logps/rejected": -308.99127197265625,
      "loss": 0.1209,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.03968176990747452,
      "rewards/margins": 7.24197244644165,
      "rewards/rejected": -7.2022905349731445,
      "step": 2580
    },
    {
      "epoch": 1.34,
      "learning_rate": 3.079938802830369e-07,
      "logits/chosen": -2.7819771766662598,
      "logits/rejected": -2.755398750305176,
      "logps/chosen": -207.9453582763672,
      "logps/rejected": -235.0533447265625,
      "loss": 0.086,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6877096891403198,
      "rewards/margins": 5.369903564453125,
      "rewards/rejected": -6.057612895965576,
      "step": 2590
    },
    {
      "epoch": 1.34,
      "learning_rate": 3.07037674507554e-07,
      "logits/chosen": -2.706509828567505,
      "logits/rejected": -2.741109848022461,
      "logps/chosen": -328.0285949707031,
      "logps/rejected": -378.04339599609375,
      "loss": 0.1213,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.15584062039852142,
      "rewards/margins": 7.148020267486572,
      "rewards/rejected": -6.992179870605469,
      "step": 2600
    },
    {
      "epoch": 1.34,
      "eval_logits/chosen": -2.5206711292266846,
      "eval_logits/rejected": -2.4774041175842285,
      "eval_logps/chosen": -268.8435974121094,
      "eval_logps/rejected": -295.39013671875,
      "eval_loss": 0.5683205723762512,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -1.4608486890792847,
      "eval_rewards/margins": 2.3811748027801514,
      "eval_rewards/rejected": -3.8420238494873047,
      "eval_runtime": 59.9277,
      "eval_samples_per_second": 16.687,
      "eval_steps_per_second": 0.267,
      "step": 2600
    },
    {
      "epoch": 1.35,
      "learning_rate": 3.060814687320711e-07,
      "logits/chosen": -2.6932194232940674,
      "logits/rejected": -2.6989266872406006,
      "logps/chosen": -347.0301818847656,
      "logps/rejected": -320.0285949707031,
      "loss": 0.0986,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.9022884368896484,
      "rewards/margins": 8.200953483581543,
      "rewards/rejected": -6.2986650466918945,
      "step": 2610
    },
    {
      "epoch": 1.35,
      "learning_rate": 3.0512526295658824e-07,
      "logits/chosen": -2.5327630043029785,
      "logits/rejected": -2.500969409942627,
      "logps/chosen": -234.2447509765625,
      "logps/rejected": -247.3339080810547,
      "loss": 0.094,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.20838475227355957,
      "rewards/margins": 5.5928425788879395,
      "rewards/rejected": -5.80122709274292,
      "step": 2620
    },
    {
      "epoch": 1.36,
      "learning_rate": 3.0416905718110536e-07,
      "logits/chosen": -2.600487232208252,
      "logits/rejected": -2.682471990585327,
      "logps/chosen": -246.78024291992188,
      "logps/rejected": -246.34237670898438,
      "loss": 0.1632,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.0733012929558754,
      "rewards/margins": 5.1650261878967285,
      "rewards/rejected": -5.0917253494262695,
      "step": 2630
    },
    {
      "epoch": 1.36,
      "learning_rate": 3.0321285140562247e-07,
      "logits/chosen": -2.7498373985290527,
      "logits/rejected": -2.6727969646453857,
      "logps/chosen": -197.46665954589844,
      "logps/rejected": -293.0552062988281,
      "loss": 0.087,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.277592420578003,
      "rewards/margins": 4.636383533477783,
      "rewards/rejected": -5.913976192474365,
      "step": 2640
    },
    {
      "epoch": 1.37,
      "learning_rate": 3.022566456301396e-07,
      "logits/chosen": -2.568721294403076,
      "logits/rejected": -2.7006120681762695,
      "logps/chosen": -296.3185119628906,
      "logps/rejected": -307.19818115234375,
      "loss": 0.1191,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.03509577363729477,
      "rewards/margins": 6.352346897125244,
      "rewards/rejected": -6.387442111968994,
      "step": 2650
    },
    {
      "epoch": 1.37,
      "learning_rate": 3.013004398546567e-07,
      "logits/chosen": -2.590341091156006,
      "logits/rejected": -2.6296682357788086,
      "logps/chosen": -299.8781433105469,
      "logps/rejected": -309.7999572753906,
      "loss": 0.1044,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.5305342078208923,
      "rewards/margins": 5.682303428649902,
      "rewards/rejected": -6.212838172912598,
      "step": 2660
    },
    {
      "epoch": 1.38,
      "learning_rate": 3.003442340791738e-07,
      "logits/chosen": -2.69757080078125,
      "logits/rejected": -2.7322795391082764,
      "logps/chosen": -250.77490234375,
      "logps/rejected": -287.36785888671875,
      "loss": 0.0781,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.4853235185146332,
      "rewards/margins": 6.51000452041626,
      "rewards/rejected": -6.995328426361084,
      "step": 2670
    },
    {
      "epoch": 1.38,
      "learning_rate": 2.9938802830369093e-07,
      "logits/chosen": -2.7183175086975098,
      "logits/rejected": -2.7362000942230225,
      "logps/chosen": -189.50961303710938,
      "logps/rejected": -314.11114501953125,
      "loss": 0.1049,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.7947381734848022,
      "rewards/margins": 6.518137454986572,
      "rewards/rejected": -7.312876224517822,
      "step": 2680
    },
    {
      "epoch": 1.39,
      "learning_rate": 2.9843182252820805e-07,
      "logits/chosen": -2.5106515884399414,
      "logits/rejected": -2.5575432777404785,
      "logps/chosen": -249.78012084960938,
      "logps/rejected": -237.69677734375,
      "loss": 0.0708,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.6967580914497375,
      "rewards/margins": 5.879612922668457,
      "rewards/rejected": -6.576371192932129,
      "step": 2690
    },
    {
      "epoch": 1.39,
      "learning_rate": 2.974756167527252e-07,
      "logits/chosen": -2.7255759239196777,
      "logits/rejected": -2.62638521194458,
      "logps/chosen": -315.8297424316406,
      "logps/rejected": -245.0868682861328,
      "loss": 0.0889,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.14952102303504944,
      "rewards/margins": 5.201340675354004,
      "rewards/rejected": -5.3508620262146,
      "step": 2700
    },
    {
      "epoch": 1.39,
      "eval_logits/chosen": -2.452204704284668,
      "eval_logits/rejected": -2.4123356342315674,
      "eval_logps/chosen": -270.2423400878906,
      "eval_logps/rejected": -294.30682373046875,
      "eval_loss": 0.5890262126922607,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -1.6007238626480103,
      "eval_rewards/margins": 2.132964849472046,
      "eval_rewards/rejected": -3.7336881160736084,
      "eval_runtime": 60.2724,
      "eval_samples_per_second": 16.591,
      "eval_steps_per_second": 0.265,
      "step": 2700
    },
    {
      "epoch": 1.4,
      "learning_rate": 2.9651941097724233e-07,
      "logits/chosen": -2.6822290420532227,
      "logits/rejected": -2.7052135467529297,
      "logps/chosen": -278.01422119140625,
      "logps/rejected": -339.3485412597656,
      "loss": 0.1087,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.15647803246974945,
      "rewards/margins": 5.597909450531006,
      "rewards/rejected": -5.754388332366943,
      "step": 2710
    },
    {
      "epoch": 1.4,
      "learning_rate": 2.9556320520175945e-07,
      "logits/chosen": -2.5796897411346436,
      "logits/rejected": -2.6120152473449707,
      "logps/chosen": -276.00408935546875,
      "logps/rejected": -235.9673614501953,
      "loss": 0.1325,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.0651065111160278,
      "rewards/margins": 4.378058433532715,
      "rewards/rejected": -5.443163871765137,
      "step": 2720
    },
    {
      "epoch": 1.41,
      "learning_rate": 2.946069994262765e-07,
      "logits/chosen": -2.682631015777588,
      "logits/rejected": -2.5832624435424805,
      "logps/chosen": -325.86883544921875,
      "logps/rejected": -448.3667907714844,
      "loss": 0.1033,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.8688300848007202,
      "rewards/margins": 9.84605598449707,
      "rewards/rejected": -7.977224826812744,
      "step": 2730
    },
    {
      "epoch": 1.41,
      "learning_rate": 2.9365079365079363e-07,
      "logits/chosen": -2.656704902648926,
      "logits/rejected": -2.6298129558563232,
      "logps/chosen": -312.0522766113281,
      "logps/rejected": -264.58172607421875,
      "loss": 0.0869,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.325814425945282,
      "rewards/margins": 7.053065299987793,
      "rewards/rejected": -6.727250099182129,
      "step": 2740
    },
    {
      "epoch": 1.42,
      "learning_rate": 2.9269458787531074e-07,
      "logits/chosen": -2.7410786151885986,
      "logits/rejected": -2.60438871383667,
      "logps/chosen": -338.72125244140625,
      "logps/rejected": -300.7152099609375,
      "loss": 0.099,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.48889246582984924,
      "rewards/margins": 5.851205348968506,
      "rewards/rejected": -5.3623127937316895,
      "step": 2750
    },
    {
      "epoch": 1.42,
      "learning_rate": 2.9173838209982786e-07,
      "logits/chosen": -2.5442605018615723,
      "logits/rejected": -2.396920680999756,
      "logps/chosen": -212.8131561279297,
      "logps/rejected": -245.8048858642578,
      "loss": 0.0924,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.18661096692085266,
      "rewards/margins": 5.660151481628418,
      "rewards/rejected": -5.846762657165527,
      "step": 2760
    },
    {
      "epoch": 1.43,
      "learning_rate": 2.90782176324345e-07,
      "logits/chosen": -2.770378589630127,
      "logits/rejected": -2.652078628540039,
      "logps/chosen": -284.2225036621094,
      "logps/rejected": -237.8290557861328,
      "loss": 0.0933,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5430759787559509,
      "rewards/margins": 5.237969398498535,
      "rewards/rejected": -5.781044960021973,
      "step": 2770
    },
    {
      "epoch": 1.44,
      "learning_rate": 2.898259705488621e-07,
      "logits/chosen": -2.763434410095215,
      "logits/rejected": -2.824732542037964,
      "logps/chosen": -295.1107482910156,
      "logps/rejected": -265.9899597167969,
      "loss": 0.0896,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.034651029855012894,
      "rewards/margins": 6.801316261291504,
      "rewards/rejected": -6.835967063903809,
      "step": 2780
    },
    {
      "epoch": 1.44,
      "learning_rate": 2.888697647733792e-07,
      "logits/chosen": -2.626591920852661,
      "logits/rejected": -2.693389892578125,
      "logps/chosen": -382.92559814453125,
      "logps/rejected": -343.2526550292969,
      "loss": 0.1328,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.3407518267631531,
      "rewards/margins": 8.370372772216797,
      "rewards/rejected": -8.029620170593262,
      "step": 2790
    },
    {
      "epoch": 1.45,
      "learning_rate": 2.879135589978963e-07,
      "logits/chosen": -2.7098212242126465,
      "logits/rejected": -2.6440200805664062,
      "logps/chosen": -237.72042846679688,
      "logps/rejected": -263.23858642578125,
      "loss": 0.0995,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.1682741343975067,
      "rewards/margins": 6.354408264160156,
      "rewards/rejected": -6.186134338378906,
      "step": 2800
    },
    {
      "epoch": 1.45,
      "eval_logits/chosen": -2.505031108856201,
      "eval_logits/rejected": -2.4685418605804443,
      "eval_logps/chosen": -269.7538146972656,
      "eval_logps/rejected": -295.3314514160156,
      "eval_loss": 0.6072700023651123,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -1.5518717765808105,
      "eval_rewards/margins": 2.2842793464660645,
      "eval_rewards/rejected": -3.836151123046875,
      "eval_runtime": 55.9165,
      "eval_samples_per_second": 17.884,
      "eval_steps_per_second": 0.286,
      "step": 2800
    },
    {
      "epoch": 1.45,
      "learning_rate": 2.8695735322241344e-07,
      "logits/chosen": -2.6192431449890137,
      "logits/rejected": -2.5992114543914795,
      "logps/chosen": -243.22531127929688,
      "logps/rejected": -259.7867431640625,
      "loss": 0.1528,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.13970229029655457,
      "rewards/margins": 6.5014328956604,
      "rewards/rejected": -6.641134738922119,
      "step": 2810
    },
    {
      "epoch": 1.46,
      "learning_rate": 2.8600114744693055e-07,
      "logits/chosen": -2.5777206420898438,
      "logits/rejected": -2.595568895339966,
      "logps/chosen": -315.70513916015625,
      "logps/rejected": -328.4643859863281,
      "loss": 0.0978,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.2178268432617188,
      "rewards/margins": 7.306548118591309,
      "rewards/rejected": -6.08872127532959,
      "step": 2820
    },
    {
      "epoch": 1.46,
      "learning_rate": 2.8504494167144767e-07,
      "logits/chosen": -2.5762603282928467,
      "logits/rejected": -2.6186347007751465,
      "logps/chosen": -338.2220153808594,
      "logps/rejected": -372.440673828125,
      "loss": 0.1064,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.40805625915527344,
      "rewards/margins": 8.335431098937988,
      "rewards/rejected": -7.927374362945557,
      "step": 2830
    },
    {
      "epoch": 1.47,
      "learning_rate": 2.8408873589596484e-07,
      "logits/chosen": -2.6718220710754395,
      "logits/rejected": -2.6635639667510986,
      "logps/chosen": -187.11207580566406,
      "logps/rejected": -261.17236328125,
      "loss": 0.0828,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.6262374520301819,
      "rewards/margins": 5.5064697265625,
      "rewards/rejected": -6.132707595825195,
      "step": 2840
    },
    {
      "epoch": 1.47,
      "learning_rate": 2.8313253012048195e-07,
      "logits/chosen": -2.549769163131714,
      "logits/rejected": -2.656653881072998,
      "logps/chosen": -244.2962188720703,
      "logps/rejected": -360.3494567871094,
      "loss": 0.1782,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.2172654867172241,
      "rewards/margins": 5.140130043029785,
      "rewards/rejected": -6.357396125793457,
      "step": 2850
    },
    {
      "epoch": 1.48,
      "learning_rate": 2.8217632434499907e-07,
      "logits/chosen": -2.645021915435791,
      "logits/rejected": -2.6408421993255615,
      "logps/chosen": -283.7989807128906,
      "logps/rejected": -308.847900390625,
      "loss": 0.1242,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.1975909173488617,
      "rewards/margins": 6.074164867401123,
      "rewards/rejected": -6.271755695343018,
      "step": 2860
    },
    {
      "epoch": 1.48,
      "learning_rate": 2.812201185695162e-07,
      "logits/chosen": -2.6722216606140137,
      "logits/rejected": -2.614084482192993,
      "logps/chosen": -170.52699279785156,
      "logps/rejected": -282.1553039550781,
      "loss": 0.0736,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.22432120144367218,
      "rewards/margins": 6.5738677978515625,
      "rewards/rejected": -6.349545955657959,
      "step": 2870
    },
    {
      "epoch": 1.49,
      "learning_rate": 2.802639127940333e-07,
      "logits/chosen": -2.706528425216675,
      "logits/rejected": -2.6337788105010986,
      "logps/chosen": -313.04913330078125,
      "logps/rejected": -283.40972900390625,
      "loss": 0.0995,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.12990444898605347,
      "rewards/margins": 6.201463222503662,
      "rewards/rejected": -6.071558475494385,
      "step": 2880
    },
    {
      "epoch": 1.49,
      "learning_rate": 2.7930770701855036e-07,
      "logits/chosen": -2.7476582527160645,
      "logits/rejected": -2.683351755142212,
      "logps/chosen": -351.7320251464844,
      "logps/rejected": -329.08026123046875,
      "loss": 0.1173,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.49377602338790894,
      "rewards/margins": 8.726078987121582,
      "rewards/rejected": -8.23230266571045,
      "step": 2890
    },
    {
      "epoch": 1.5,
      "learning_rate": 2.783515012430675e-07,
      "logits/chosen": -2.5259041786193848,
      "logits/rejected": -2.5326766967773438,
      "logps/chosen": -190.27813720703125,
      "logps/rejected": -241.18991088867188,
      "loss": 0.1145,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.45352381467819214,
      "rewards/margins": 5.041954517364502,
      "rewards/rejected": -5.495478630065918,
      "step": 2900
    },
    {
      "epoch": 1.5,
      "eval_logits/chosen": -2.4674015045166016,
      "eval_logits/rejected": -2.42722749710083,
      "eval_logps/chosen": -272.1744384765625,
      "eval_logps/rejected": -299.8460998535156,
      "eval_loss": 0.579024076461792,
      "eval_rewards/accuracies": 0.84375,
      "eval_rewards/chosen": -1.7939329147338867,
      "eval_rewards/margins": 2.4936835765838623,
      "eval_rewards/rejected": -4.28761625289917,
      "eval_runtime": 57.5798,
      "eval_samples_per_second": 17.367,
      "eval_steps_per_second": 0.278,
      "step": 2900
    },
    {
      "epoch": 1.5,
      "learning_rate": 2.773952954675846e-07,
      "logits/chosen": -2.6517531871795654,
      "logits/rejected": -2.611769914627075,
      "logps/chosen": -357.39666748046875,
      "logps/rejected": -310.7156677246094,
      "loss": 0.086,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.0798923969268799,
      "rewards/margins": 8.055770874023438,
      "rewards/rejected": -6.9758782386779785,
      "step": 2910
    },
    {
      "epoch": 1.51,
      "learning_rate": 2.764390896921017e-07,
      "logits/chosen": -2.603874921798706,
      "logits/rejected": -2.5526695251464844,
      "logps/chosen": -272.8443298339844,
      "logps/rejected": -329.92401123046875,
      "loss": 0.0943,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.03761887550354,
      "rewards/margins": 8.095129013061523,
      "rewards/rejected": -7.057511329650879,
      "step": 2920
    },
    {
      "epoch": 1.51,
      "learning_rate": 2.754828839166188e-07,
      "logits/chosen": -2.6576075553894043,
      "logits/rejected": -2.6514670848846436,
      "logps/chosen": -191.14877319335938,
      "logps/rejected": -301.5423889160156,
      "loss": 0.0724,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.5387217402458191,
      "rewards/margins": 7.507475852966309,
      "rewards/rejected": -6.968753814697266,
      "step": 2930
    },
    {
      "epoch": 1.52,
      "learning_rate": 2.7452667814113594e-07,
      "logits/chosen": -2.7524516582489014,
      "logits/rejected": -2.7706661224365234,
      "logps/chosen": -318.32501220703125,
      "logps/rejected": -316.9727783203125,
      "loss": 0.087,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.01138849277049303,
      "rewards/margins": 5.306549072265625,
      "rewards/rejected": -5.295160293579102,
      "step": 2940
    },
    {
      "epoch": 1.52,
      "learning_rate": 2.7357047236565306e-07,
      "logits/chosen": -2.699721097946167,
      "logits/rejected": -2.7687458992004395,
      "logps/chosen": -280.2265319824219,
      "logps/rejected": -364.947509765625,
      "loss": 0.0659,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.4582802355289459,
      "rewards/margins": 6.130402088165283,
      "rewards/rejected": -5.672121047973633,
      "step": 2950
    },
    {
      "epoch": 1.53,
      "learning_rate": 2.7261426659017017e-07,
      "logits/chosen": -2.7413382530212402,
      "logits/rejected": -2.7660346031188965,
      "logps/chosen": -324.0436706542969,
      "logps/rejected": -243.81802368164062,
      "loss": 0.0914,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.6909480094909668,
      "rewards/margins": 4.682136535644531,
      "rewards/rejected": -5.373085021972656,
      "step": 2960
    },
    {
      "epoch": 1.53,
      "learning_rate": 2.716580608146873e-07,
      "logits/chosen": -2.646226644515991,
      "logits/rejected": -2.712257146835327,
      "logps/chosen": -374.819580078125,
      "logps/rejected": -351.70025634765625,
      "loss": 0.0677,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.3280370235443115,
      "rewards/margins": 9.090957641601562,
      "rewards/rejected": -7.762920379638672,
      "step": 2970
    },
    {
      "epoch": 1.54,
      "learning_rate": 2.7070185503920446e-07,
      "logits/chosen": -2.639868974685669,
      "logits/rejected": -2.7557711601257324,
      "logps/chosen": -273.087646484375,
      "logps/rejected": -317.41766357421875,
      "loss": 0.0616,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6701494455337524,
      "rewards/margins": 7.305191993713379,
      "rewards/rejected": -7.975341796875,
      "step": 2980
    },
    {
      "epoch": 1.54,
      "learning_rate": 2.6974564926372157e-07,
      "logits/chosen": -2.759113311767578,
      "logits/rejected": -2.7275261878967285,
      "logps/chosen": -301.2916259765625,
      "logps/rejected": -324.0910949707031,
      "loss": 0.0916,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.8304478526115417,
      "rewards/margins": 7.585775852203369,
      "rewards/rejected": -6.755328178405762,
      "step": 2990
    },
    {
      "epoch": 1.55,
      "learning_rate": 2.687894434882387e-07,
      "logits/chosen": -2.653514862060547,
      "logits/rejected": -2.606902599334717,
      "logps/chosen": -277.50506591796875,
      "logps/rejected": -264.87481689453125,
      "loss": 0.0644,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.18126115202903748,
      "rewards/margins": 4.916709899902344,
      "rewards/rejected": -5.097971439361572,
      "step": 3000
    },
    {
      "epoch": 1.55,
      "eval_logits/chosen": -2.457401990890503,
      "eval_logits/rejected": -2.4193201065063477,
      "eval_logps/chosen": -271.5200500488281,
      "eval_logps/rejected": -299.0209045410156,
      "eval_loss": 0.5735086798667908,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -1.7284938097000122,
      "eval_rewards/margins": 2.476605176925659,
      "eval_rewards/rejected": -4.205099105834961,
      "eval_runtime": 58.4864,
      "eval_samples_per_second": 17.098,
      "eval_steps_per_second": 0.274,
      "step": 3000
    },
    {
      "epoch": 1.55,
      "learning_rate": 2.678332377127558e-07,
      "logits/chosen": -2.693279981613159,
      "logits/rejected": -2.6434133052825928,
      "logps/chosen": -257.072509765625,
      "logps/rejected": -268.16107177734375,
      "loss": 0.0794,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.660453736782074,
      "rewards/margins": 7.455300807952881,
      "rewards/rejected": -6.7948479652404785,
      "step": 3010
    },
    {
      "epoch": 1.56,
      "learning_rate": 2.668770319372729e-07,
      "logits/chosen": -2.476691484451294,
      "logits/rejected": -2.369554042816162,
      "logps/chosen": -243.014892578125,
      "logps/rejected": -179.72573852539062,
      "loss": 0.0769,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.28263527154922485,
      "rewards/margins": 4.549951076507568,
      "rewards/rejected": -4.832587242126465,
      "step": 3020
    },
    {
      "epoch": 1.56,
      "learning_rate": 2.6592082616179004e-07,
      "logits/chosen": -2.799598217010498,
      "logits/rejected": -2.6863772869110107,
      "logps/chosen": -202.5391082763672,
      "logps/rejected": -217.33743286132812,
      "loss": 0.0956,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.2968635559082031,
      "rewards/margins": 5.342751979827881,
      "rewards/rejected": -5.639615535736084,
      "step": 3030
    },
    {
      "epoch": 1.57,
      "learning_rate": 2.649646203863071e-07,
      "logits/chosen": -2.78475022315979,
      "logits/rejected": -2.7314937114715576,
      "logps/chosen": -341.8492126464844,
      "logps/rejected": -377.26318359375,
      "loss": 0.0786,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.6281161308288574,
      "rewards/margins": 6.323546409606934,
      "rewards/rejected": -5.695430278778076,
      "step": 3040
    },
    {
      "epoch": 1.57,
      "learning_rate": 2.640084146108242e-07,
      "logits/chosen": -2.835313558578491,
      "logits/rejected": -2.8478219509124756,
      "logps/chosen": -413.6333923339844,
      "logps/rejected": -281.8817138671875,
      "loss": 0.0753,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.3795287013053894,
      "rewards/margins": 6.382612705230713,
      "rewards/rejected": -6.003084659576416,
      "step": 3050
    },
    {
      "epoch": 1.58,
      "learning_rate": 2.6305220883534133e-07,
      "logits/chosen": -2.7521536350250244,
      "logits/rejected": -2.802274227142334,
      "logps/chosen": -283.74365234375,
      "logps/rejected": -274.3045654296875,
      "loss": 0.0746,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.19368138909339905,
      "rewards/margins": 5.350792407989502,
      "rewards/rejected": -5.157111167907715,
      "step": 3060
    },
    {
      "epoch": 1.58,
      "learning_rate": 2.6209600305985845e-07,
      "logits/chosen": -2.6364054679870605,
      "logits/rejected": -2.6233391761779785,
      "logps/chosen": -320.7242736816406,
      "logps/rejected": -418.53863525390625,
      "loss": 0.1234,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.2693870961666107,
      "rewards/margins": 10.055575370788574,
      "rewards/rejected": -9.786188125610352,
      "step": 3070
    },
    {
      "epoch": 1.59,
      "learning_rate": 2.6113979728437556e-07,
      "logits/chosen": -2.757228374481201,
      "logits/rejected": -2.746696949005127,
      "logps/chosen": -278.10736083984375,
      "logps/rejected": -269.76751708984375,
      "loss": 0.1059,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.18973210453987122,
      "rewards/margins": 5.467267036437988,
      "rewards/rejected": -5.2775349617004395,
      "step": 3080
    },
    {
      "epoch": 1.6,
      "learning_rate": 2.601835915088927e-07,
      "logits/chosen": -2.6811797618865967,
      "logits/rejected": -2.694938898086548,
      "logps/chosen": -268.3731689453125,
      "logps/rejected": -316.51507568359375,
      "loss": 0.0925,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.0646179914474487,
      "rewards/margins": 7.384450435638428,
      "rewards/rejected": -6.319832801818848,
      "step": 3090
    },
    {
      "epoch": 1.6,
      "learning_rate": 2.592273857334098e-07,
      "logits/chosen": -2.8825931549072266,
      "logits/rejected": -2.838369607925415,
      "logps/chosen": -272.46466064453125,
      "logps/rejected": -302.24951171875,
      "loss": 0.0798,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.7096697092056274,
      "rewards/margins": 8.205864906311035,
      "rewards/rejected": -6.496194362640381,
      "step": 3100
    },
    {
      "epoch": 1.6,
      "eval_logits/chosen": -2.569591760635376,
      "eval_logits/rejected": -2.536669969558716,
      "eval_logps/chosen": -271.4610290527344,
      "eval_logps/rejected": -299.8199768066406,
      "eval_loss": 0.5536529421806335,
      "eval_rewards/accuracies": 0.84375,
      "eval_rewards/chosen": -1.7225927114486694,
      "eval_rewards/margins": 2.5624139308929443,
      "eval_rewards/rejected": -4.285006523132324,
      "eval_runtime": 56.0043,
      "eval_samples_per_second": 17.856,
      "eval_steps_per_second": 0.286,
      "step": 3100
    },
    {
      "epoch": 1.61,
      "learning_rate": 2.582711799579269e-07,
      "logits/chosen": -2.8248748779296875,
      "logits/rejected": -2.778346300125122,
      "logps/chosen": -299.2210693359375,
      "logps/rejected": -313.359375,
      "loss": 0.071,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.7604249715805054,
      "rewards/margins": 7.902795314788818,
      "rewards/rejected": -7.142370700836182,
      "step": 3110
    },
    {
      "epoch": 1.61,
      "learning_rate": 2.573149741824441e-07,
      "logits/chosen": -2.6978442668914795,
      "logits/rejected": -2.6833174228668213,
      "logps/chosen": -336.5847473144531,
      "logps/rejected": -245.4396209716797,
      "loss": 0.0829,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.08581381291151047,
      "rewards/margins": 5.277584075927734,
      "rewards/rejected": -5.191770076751709,
      "step": 3120
    },
    {
      "epoch": 1.62,
      "learning_rate": 2.563587684069612e-07,
      "logits/chosen": -2.8688364028930664,
      "logits/rejected": -2.7075347900390625,
      "logps/chosen": -350.5228576660156,
      "logps/rejected": -273.2851867675781,
      "loss": 0.0564,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7785223126411438,
      "rewards/margins": 6.459234714508057,
      "rewards/rejected": -7.237756252288818,
      "step": 3130
    },
    {
      "epoch": 1.62,
      "learning_rate": 2.554025626314783e-07,
      "logits/chosen": -2.727123737335205,
      "logits/rejected": -2.725803852081299,
      "logps/chosen": -344.9717712402344,
      "logps/rejected": -390.8403625488281,
      "loss": 0.0898,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9268060922622681,
      "rewards/margins": 6.525388240814209,
      "rewards/rejected": -7.4521942138671875,
      "step": 3140
    },
    {
      "epoch": 1.63,
      "learning_rate": 2.544463568559954e-07,
      "logits/chosen": -2.786041259765625,
      "logits/rejected": -2.7138454914093018,
      "logps/chosen": -323.46832275390625,
      "logps/rejected": -323.85125732421875,
      "loss": 0.0678,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.7023747563362122,
      "rewards/margins": 8.29463005065918,
      "rewards/rejected": -7.592255592346191,
      "step": 3150
    },
    {
      "epoch": 1.63,
      "learning_rate": 2.5349015108051254e-07,
      "logits/chosen": -2.623403787612915,
      "logits/rejected": -2.6345882415771484,
      "logps/chosen": -251.9879913330078,
      "logps/rejected": -317.69769287109375,
      "loss": 0.0833,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.3217948377132416,
      "rewards/margins": 7.894297122955322,
      "rewards/rejected": -7.572502136230469,
      "step": 3160
    },
    {
      "epoch": 1.64,
      "learning_rate": 2.5253394530502966e-07,
      "logits/chosen": -2.483633518218994,
      "logits/rejected": -2.636124610900879,
      "logps/chosen": -375.053955078125,
      "logps/rejected": -289.378662109375,
      "loss": 0.0582,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.537722647190094,
      "rewards/margins": 7.012340545654297,
      "rewards/rejected": -6.474618434906006,
      "step": 3170
    },
    {
      "epoch": 1.64,
      "learning_rate": 2.5157773952954677e-07,
      "logits/chosen": -2.746309757232666,
      "logits/rejected": -2.692573070526123,
      "logps/chosen": -342.6100158691406,
      "logps/rejected": -319.15850830078125,
      "loss": 0.1194,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.26776519417762756,
      "rewards/margins": 7.538763523101807,
      "rewards/rejected": -7.270998477935791,
      "step": 3180
    },
    {
      "epoch": 1.65,
      "learning_rate": 2.506215337540639e-07,
      "logits/chosen": -2.842471122741699,
      "logits/rejected": -2.7346935272216797,
      "logps/chosen": -357.83837890625,
      "logps/rejected": -415.0469665527344,
      "loss": 0.1034,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.20541605353355408,
      "rewards/margins": 6.793099880218506,
      "rewards/rejected": -6.587684631347656,
      "step": 3190
    },
    {
      "epoch": 1.65,
      "learning_rate": 2.4966532797858095e-07,
      "logits/chosen": -2.6495633125305176,
      "logits/rejected": -2.666757106781006,
      "logps/chosen": -266.09454345703125,
      "logps/rejected": -267.7814636230469,
      "loss": 0.1013,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.0470559298992157,
      "rewards/margins": 6.690218925476074,
      "rewards/rejected": -6.73727560043335,
      "step": 3200
    },
    {
      "epoch": 1.65,
      "eval_logits/chosen": -2.526689291000366,
      "eval_logits/rejected": -2.492635726928711,
      "eval_logps/chosen": -269.9497985839844,
      "eval_logps/rejected": -296.7825012207031,
      "eval_loss": 0.5574991703033447,
      "eval_rewards/accuracies": 0.875,
      "eval_rewards/chosen": -1.5714715719223022,
      "eval_rewards/margins": 2.4097867012023926,
      "eval_rewards/rejected": -3.9812583923339844,
      "eval_runtime": 57.7657,
      "eval_samples_per_second": 17.311,
      "eval_steps_per_second": 0.277,
      "step": 3200
    },
    {
      "epoch": 1.66,
      "learning_rate": 2.4870912220309807e-07,
      "logits/chosen": -2.625276565551758,
      "logits/rejected": -2.73038649559021,
      "logps/chosen": -289.6630554199219,
      "logps/rejected": -282.751953125,
      "loss": 0.0784,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.39164501428604126,
      "rewards/margins": 5.46439266204834,
      "rewards/rejected": -5.072747707366943,
      "step": 3210
    },
    {
      "epoch": 1.66,
      "learning_rate": 2.477529164276152e-07,
      "logits/chosen": -2.7541117668151855,
      "logits/rejected": -2.75673508644104,
      "logps/chosen": -309.00799560546875,
      "logps/rejected": -350.14556884765625,
      "loss": 0.0784,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.0380117893218994,
      "rewards/margins": 7.454461574554443,
      "rewards/rejected": -6.416450500488281,
      "step": 3220
    },
    {
      "epoch": 1.67,
      "learning_rate": 2.4679671065213235e-07,
      "logits/chosen": -2.7203588485717773,
      "logits/rejected": -2.704502582550049,
      "logps/chosen": -347.71453857421875,
      "logps/rejected": -295.966552734375,
      "loss": 0.1137,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.29694637656211853,
      "rewards/margins": 5.83956241607666,
      "rewards/rejected": -5.5426154136657715,
      "step": 3230
    },
    {
      "epoch": 1.67,
      "learning_rate": 2.4584050487664947e-07,
      "logits/chosen": -2.7662394046783447,
      "logits/rejected": -2.7026658058166504,
      "logps/chosen": -346.2272644042969,
      "logps/rejected": -320.8843078613281,
      "loss": 0.0958,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.34752047061920166,
      "rewards/margins": 6.67000675201416,
      "rewards/rejected": -6.32248592376709,
      "step": 3240
    },
    {
      "epoch": 1.68,
      "learning_rate": 2.448842991011666e-07,
      "logits/chosen": -2.6715903282165527,
      "logits/rejected": -2.603444814682007,
      "logps/chosen": -275.488037109375,
      "logps/rejected": -369.26861572265625,
      "loss": 0.1227,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.22678561508655548,
      "rewards/margins": 7.3243255615234375,
      "rewards/rejected": -7.09753942489624,
      "step": 3250
    },
    {
      "epoch": 1.68,
      "learning_rate": 2.439280933256837e-07,
      "logits/chosen": -2.5521583557128906,
      "logits/rejected": -2.575525999069214,
      "logps/chosen": -234.0755157470703,
      "logps/rejected": -253.0180206298828,
      "loss": 0.0473,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.34158411622047424,
      "rewards/margins": 7.31561803817749,
      "rewards/rejected": -6.974034309387207,
      "step": 3260
    },
    {
      "epoch": 1.69,
      "learning_rate": 2.429718875502008e-07,
      "logits/chosen": -2.246537923812866,
      "logits/rejected": -2.325873613357544,
      "logps/chosen": -278.77386474609375,
      "logps/rejected": -295.7586975097656,
      "loss": 0.0705,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.1356315165758133,
      "rewards/margins": 5.905457496643066,
      "rewards/rejected": -5.7698259353637695,
      "step": 3270
    },
    {
      "epoch": 1.69,
      "learning_rate": 2.420156817747179e-07,
      "logits/chosen": -2.7891759872436523,
      "logits/rejected": -2.7579565048217773,
      "logps/chosen": -356.2643127441406,
      "logps/rejected": -370.2890319824219,
      "loss": 0.0637,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.439815878868103,
      "rewards/margins": 8.942848205566406,
      "rewards/rejected": -7.503033638000488,
      "step": 3280
    },
    {
      "epoch": 1.7,
      "learning_rate": 2.41059475999235e-07,
      "logits/chosen": -2.726214647293091,
      "logits/rejected": -2.5874438285827637,
      "logps/chosen": -226.1343231201172,
      "logps/rejected": -244.17489624023438,
      "loss": 0.0722,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.5386222004890442,
      "rewards/margins": 6.369637489318848,
      "rewards/rejected": -6.908260345458984,
      "step": 3290
    },
    {
      "epoch": 1.7,
      "learning_rate": 2.4010327022375216e-07,
      "logits/chosen": -2.660001516342163,
      "logits/rejected": -2.6236727237701416,
      "logps/chosen": -350.3585510253906,
      "logps/rejected": -423.14605712890625,
      "loss": 0.1254,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.3113314211368561,
      "rewards/margins": 8.888386726379395,
      "rewards/rejected": -8.577055931091309,
      "step": 3300
    },
    {
      "epoch": 1.7,
      "eval_logits/chosen": -2.533999443054199,
      "eval_logits/rejected": -2.5016584396362305,
      "eval_logps/chosen": -270.6473083496094,
      "eval_logps/rejected": -301.6729736328125,
      "eval_loss": 0.5904735326766968,
      "eval_rewards/accuracies": 0.859375,
      "eval_rewards/chosen": -1.6412229537963867,
      "eval_rewards/margins": 2.8290822505950928,
      "eval_rewards/rejected": -4.4703049659729,
      "eval_runtime": 56.7796,
      "eval_samples_per_second": 17.612,
      "eval_steps_per_second": 0.282,
      "step": 3300
    },
    {
      "epoch": 1.71,
      "learning_rate": 2.391470644482693e-07,
      "logits/chosen": -2.5988898277282715,
      "logits/rejected": -2.633589267730713,
      "logps/chosen": -299.37860107421875,
      "logps/rejected": -375.39788818359375,
      "loss": 0.0757,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.23076781630516052,
      "rewards/margins": 7.872524261474609,
      "rewards/rejected": -7.641757011413574,
      "step": 3310
    },
    {
      "epoch": 1.71,
      "learning_rate": 2.3819085867278636e-07,
      "logits/chosen": -2.6122288703918457,
      "logits/rejected": -2.6097447872161865,
      "logps/chosen": -184.86968994140625,
      "logps/rejected": -299.4801330566406,
      "loss": 0.0826,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.3567231297492981,
      "rewards/margins": 8.226961135864258,
      "rewards/rejected": -8.583684921264648,
      "step": 3320
    },
    {
      "epoch": 1.72,
      "learning_rate": 2.3723465289730348e-07,
      "logits/chosen": -2.629166603088379,
      "logits/rejected": -2.598412036895752,
      "logps/chosen": -287.3348693847656,
      "logps/rejected": -273.7483825683594,
      "loss": 0.1158,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -0.2611514925956726,
      "rewards/margins": 5.725651264190674,
      "rewards/rejected": -5.986802577972412,
      "step": 3330
    },
    {
      "epoch": 1.72,
      "learning_rate": 2.362784471218206e-07,
      "logits/chosen": -2.73244571685791,
      "logits/rejected": -2.7296879291534424,
      "logps/chosen": -355.73236083984375,
      "logps/rejected": -323.4547424316406,
      "loss": 0.0704,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.1553064584732056,
      "rewards/margins": 6.715522766113281,
      "rewards/rejected": -5.560215950012207,
      "step": 3340
    },
    {
      "epoch": 1.73,
      "learning_rate": 2.353222413463377e-07,
      "logits/chosen": -2.7055535316467285,
      "logits/rejected": -2.659834146499634,
      "logps/chosen": -234.71792602539062,
      "logps/rejected": -258.9352722167969,
      "loss": 0.0594,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.04846489429473877,
      "rewards/margins": 5.886017799377441,
      "rewards/rejected": -5.934482574462891,
      "step": 3350
    },
    {
      "epoch": 1.73,
      "learning_rate": 2.3436603557085483e-07,
      "logits/chosen": -2.7515339851379395,
      "logits/rejected": -2.647671937942505,
      "logps/chosen": -205.7976837158203,
      "logps/rejected": -278.0999450683594,
      "loss": 0.0886,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.5387641787528992,
      "rewards/margins": 6.382545471191406,
      "rewards/rejected": -5.8437819480896,
      "step": 3360
    },
    {
      "epoch": 1.74,
      "learning_rate": 2.3340982979537197e-07,
      "logits/chosen": -2.727328300476074,
      "logits/rejected": -2.7680537700653076,
      "logps/chosen": -395.30169677734375,
      "logps/rejected": -329.90234375,
      "loss": 0.0734,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.9938201904296875,
      "rewards/margins": 6.250397682189941,
      "rewards/rejected": -5.256577491760254,
      "step": 3370
    },
    {
      "epoch": 1.74,
      "learning_rate": 2.3245362401988909e-07,
      "logits/chosen": -2.7096972465515137,
      "logits/rejected": -2.605597734451294,
      "logps/chosen": -308.7266845703125,
      "logps/rejected": -269.8343811035156,
      "loss": 0.0906,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.0761408805847168,
      "rewards/margins": 7.6199774742126465,
      "rewards/rejected": -6.543837547302246,
      "step": 3380
    },
    {
      "epoch": 1.75,
      "learning_rate": 2.314974182444062e-07,
      "logits/chosen": -2.7419021129608154,
      "logits/rejected": -2.797194004058838,
      "logps/chosen": -308.60302734375,
      "logps/rejected": -293.39581298828125,
      "loss": 0.1425,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.2203086614608765,
      "rewards/margins": 5.09138822555542,
      "rewards/rejected": -6.311697483062744,
      "step": 3390
    },
    {
      "epoch": 1.76,
      "learning_rate": 2.305412124689233e-07,
      "logits/chosen": -2.521355628967285,
      "logits/rejected": -2.5652852058410645,
      "logps/chosen": -271.5760192871094,
      "logps/rejected": -332.80743408203125,
      "loss": 0.085,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.12037495523691177,
      "rewards/margins": 6.457161903381348,
      "rewards/rejected": -6.33678674697876,
      "step": 3400
    },
    {
      "epoch": 1.76,
      "eval_logits/chosen": -2.495957612991333,
      "eval_logits/rejected": -2.461439609527588,
      "eval_logps/chosen": -273.39410400390625,
      "eval_logps/rejected": -303.7296142578125,
      "eval_loss": 0.6132888793945312,
      "eval_rewards/accuracies": 0.84375,
      "eval_rewards/chosen": -1.9158999919891357,
      "eval_rewards/margins": 2.760065793991089,
      "eval_rewards/rejected": -4.675965309143066,
      "eval_runtime": 57.5942,
      "eval_samples_per_second": 17.363,
      "eval_steps_per_second": 0.278,
      "step": 3400
    },
    {
      "epoch": 1.76,
      "learning_rate": 2.295850066934404e-07,
      "logits/chosen": -2.6166062355041504,
      "logits/rejected": -2.540011167526245,
      "logps/chosen": -279.5812683105469,
      "logps/rejected": -327.165283203125,
      "loss": 0.0789,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.3240896463394165,
      "rewards/margins": 6.653228759765625,
      "rewards/rejected": -7.977317810058594,
      "step": 3410
    },
    {
      "epoch": 1.77,
      "learning_rate": 2.2862880091795752e-07,
      "logits/chosen": -2.5269017219543457,
      "logits/rejected": -2.516174077987671,
      "logps/chosen": -194.35435485839844,
      "logps/rejected": -307.7319030761719,
      "loss": 0.0863,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.5239468812942505,
      "rewards/margins": 5.74463415145874,
      "rewards/rejected": -6.268580436706543,
      "step": 3420
    },
    {
      "epoch": 1.77,
      "learning_rate": 2.2767259514247464e-07,
      "logits/chosen": -2.3292429447174072,
      "logits/rejected": -2.2449238300323486,
      "logps/chosen": -235.97329711914062,
      "logps/rejected": -297.90130615234375,
      "loss": 0.0867,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.7022100687026978,
      "rewards/margins": 6.978515625,
      "rewards/rejected": -6.27630615234375,
      "step": 3430
    },
    {
      "epoch": 1.78,
      "learning_rate": 2.2671638936699178e-07,
      "logits/chosen": -2.413973093032837,
      "logits/rejected": -2.389719247817993,
      "logps/chosen": -315.0927734375,
      "logps/rejected": -248.7796630859375,
      "loss": 0.0776,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.12068784236907959,
      "rewards/margins": 5.998594760894775,
      "rewards/rejected": -5.877906799316406,
      "step": 3440
    },
    {
      "epoch": 1.78,
      "learning_rate": 2.257601835915089e-07,
      "logits/chosen": -2.582331895828247,
      "logits/rejected": -2.504185199737549,
      "logps/chosen": -333.48358154296875,
      "logps/rejected": -384.9881286621094,
      "loss": 0.0597,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.09340760856866837,
      "rewards/margins": 7.274853706359863,
      "rewards/rejected": -7.181446075439453,
      "step": 3450
    },
    {
      "epoch": 1.79,
      "learning_rate": 2.24803977816026e-07,
      "logits/chosen": -2.3808603286743164,
      "logits/rejected": -2.5695574283599854,
      "logps/chosen": -218.94461059570312,
      "logps/rejected": -255.54013061523438,
      "loss": 0.1264,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.38311663269996643,
      "rewards/margins": 8.536532402038574,
      "rewards/rejected": -8.153416633605957,
      "step": 3460
    },
    {
      "epoch": 1.79,
      "learning_rate": 2.2384777204054313e-07,
      "logits/chosen": -2.7166881561279297,
      "logits/rejected": -2.651099920272827,
      "logps/chosen": -266.19390869140625,
      "logps/rejected": -290.5924377441406,
      "loss": 0.0907,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.5935767292976379,
      "rewards/margins": 7.180167198181152,
      "rewards/rejected": -6.586589813232422,
      "step": 3470
    },
    {
      "epoch": 1.8,
      "learning_rate": 2.2289156626506022e-07,
      "logits/chosen": -2.6081440448760986,
      "logits/rejected": -2.435035228729248,
      "logps/chosen": -307.9920959472656,
      "logps/rejected": -380.0340270996094,
      "loss": 0.081,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.4312973916530609,
      "rewards/margins": 8.036073684692383,
      "rewards/rejected": -7.604775428771973,
      "step": 3480
    },
    {
      "epoch": 1.8,
      "learning_rate": 2.2193536048957733e-07,
      "logits/chosen": -2.6976230144500732,
      "logits/rejected": -2.664168119430542,
      "logps/chosen": -258.38092041015625,
      "logps/rejected": -316.06903076171875,
      "loss": 0.1032,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.064023457467556,
      "rewards/margins": 6.762887477874756,
      "rewards/rejected": -6.698863983154297,
      "step": 3490
    },
    {
      "epoch": 1.81,
      "learning_rate": 2.2097915471409445e-07,
      "logits/chosen": -2.7331182956695557,
      "logits/rejected": -2.7065072059631348,
      "logps/chosen": -242.06661987304688,
      "logps/rejected": -319.9682312011719,
      "loss": 0.065,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.17091651260852814,
      "rewards/margins": 7.219882011413574,
      "rewards/rejected": -7.0489654541015625,
      "step": 3500
    },
    {
      "epoch": 1.81,
      "eval_logits/chosen": -2.5004467964172363,
      "eval_logits/rejected": -2.4597153663635254,
      "eval_logps/chosen": -272.472412109375,
      "eval_logps/rejected": -300.49505615234375,
      "eval_loss": 0.607377290725708,
      "eval_rewards/accuracies": 0.859375,
      "eval_rewards/chosen": -1.8237330913543701,
      "eval_rewards/margins": 2.528778553009033,
      "eval_rewards/rejected": -4.352511405944824,
      "eval_runtime": 58.0784,
      "eval_samples_per_second": 17.218,
      "eval_steps_per_second": 0.275,
      "step": 3500
    },
    {
      "epoch": 1.81,
      "learning_rate": 2.200229489386116e-07,
      "logits/chosen": -2.7414891719818115,
      "logits/rejected": -2.6085870265960693,
      "logps/chosen": -311.56866455078125,
      "logps/rejected": -367.4567565917969,
      "loss": 0.0892,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": 0.9936217069625854,
      "rewards/margins": 6.746335029602051,
      "rewards/rejected": -5.752713680267334,
      "step": 3510
    },
    {
      "epoch": 1.82,
      "learning_rate": 2.190667431631287e-07,
      "logits/chosen": -2.767604112625122,
      "logits/rejected": -2.6218278408050537,
      "logps/chosen": -354.67822265625,
      "logps/rejected": -397.64068603515625,
      "loss": 0.1602,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 1.2055106163024902,
      "rewards/margins": 9.150163650512695,
      "rewards/rejected": -7.944652557373047,
      "step": 3520
    },
    {
      "epoch": 1.82,
      "learning_rate": 2.1811053738764582e-07,
      "logits/chosen": -2.4568405151367188,
      "logits/rejected": -2.4575486183166504,
      "logps/chosen": -235.7547149658203,
      "logps/rejected": -265.8733215332031,
      "loss": 0.0686,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.24134965240955353,
      "rewards/margins": 4.935102939605713,
      "rewards/rejected": -5.17645263671875,
      "step": 3530
    },
    {
      "epoch": 1.83,
      "learning_rate": 2.1715433161216294e-07,
      "logits/chosen": -2.7147650718688965,
      "logits/rejected": -2.6502747535705566,
      "logps/chosen": -291.44219970703125,
      "logps/rejected": -360.6312255859375,
      "loss": 0.0713,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.0583919286727905,
      "rewards/margins": 7.564295768737793,
      "rewards/rejected": -6.5059027671813965,
      "step": 3540
    },
    {
      "epoch": 1.83,
      "learning_rate": 2.1619812583668005e-07,
      "logits/chosen": -2.5987043380737305,
      "logits/rejected": -2.607950448989868,
      "logps/chosen": -299.592529296875,
      "logps/rejected": -337.1802978515625,
      "loss": 0.0877,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.13366484642028809,
      "rewards/margins": 6.168055534362793,
      "rewards/rejected": -6.034390926361084,
      "step": 3550
    },
    {
      "epoch": 1.84,
      "learning_rate": 2.1524192006119714e-07,
      "logits/chosen": -2.549741744995117,
      "logits/rejected": -2.519808292388916,
      "logps/chosen": -290.70684814453125,
      "logps/rejected": -333.82489013671875,
      "loss": 0.0653,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6356315612792969,
      "rewards/margins": 6.749837398529053,
      "rewards/rejected": -7.38546895980835,
      "step": 3560
    },
    {
      "epoch": 1.84,
      "learning_rate": 2.1428571428571426e-07,
      "logits/chosen": -2.5867228507995605,
      "logits/rejected": -2.5592923164367676,
      "logps/chosen": -248.76699829101562,
      "logps/rejected": -269.9541015625,
      "loss": 0.0585,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.503594696521759,
      "rewards/margins": 5.626603126525879,
      "rewards/rejected": -6.130197525024414,
      "step": 3570
    },
    {
      "epoch": 1.85,
      "learning_rate": 2.133295085102314e-07,
      "logits/chosen": -2.4805967807769775,
      "logits/rejected": -2.5831592082977295,
      "logps/chosen": -288.694580078125,
      "logps/rejected": -289.60638427734375,
      "loss": 0.0924,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.20494358241558075,
      "rewards/margins": 6.796807289123535,
      "rewards/rejected": -7.0017499923706055,
      "step": 3580
    },
    {
      "epoch": 1.85,
      "learning_rate": 2.1237330273474851e-07,
      "logits/chosen": -2.6966331005096436,
      "logits/rejected": -2.650146245956421,
      "logps/chosen": -374.99774169921875,
      "logps/rejected": -346.72711181640625,
      "loss": 0.1106,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.8571535348892212,
      "rewards/margins": 7.465939521789551,
      "rewards/rejected": -6.608786106109619,
      "step": 3590
    },
    {
      "epoch": 1.86,
      "learning_rate": 2.1141709695926563e-07,
      "logits/chosen": -2.73488450050354,
      "logits/rejected": -2.7135844230651855,
      "logps/chosen": -230.2847137451172,
      "logps/rejected": -190.71505737304688,
      "loss": 0.0755,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.4617141783237457,
      "rewards/margins": 5.763091087341309,
      "rewards/rejected": -6.224804878234863,
      "step": 3600
    },
    {
      "epoch": 1.86,
      "eval_logits/chosen": -2.4716105461120605,
      "eval_logits/rejected": -2.4327313899993896,
      "eval_logps/chosen": -273.4872131347656,
      "eval_logps/rejected": -300.97479248046875,
      "eval_loss": 0.5835925340652466,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -1.9252128601074219,
      "eval_rewards/margins": 2.4752719402313232,
      "eval_rewards/rejected": -4.400485038757324,
      "eval_runtime": 60.2598,
      "eval_samples_per_second": 16.595,
      "eval_steps_per_second": 0.266,
      "step": 3600
    },
    {
      "epoch": 1.86,
      "learning_rate": 2.1046089118378275e-07,
      "logits/chosen": -2.7524561882019043,
      "logits/rejected": -2.7061877250671387,
      "logps/chosen": -265.36962890625,
      "logps/rejected": -293.2806396484375,
      "loss": 0.1317,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.8292659521102905,
      "rewards/margins": 7.344795227050781,
      "rewards/rejected": -6.515528678894043,
      "step": 3610
    },
    {
      "epoch": 1.87,
      "learning_rate": 2.0950468540829986e-07,
      "logits/chosen": -2.6626524925231934,
      "logits/rejected": -2.640347719192505,
      "logps/chosen": -207.5610809326172,
      "logps/rejected": -238.7421417236328,
      "loss": 0.097,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3047277331352234,
      "rewards/margins": 6.0444464683532715,
      "rewards/rejected": -6.349174499511719,
      "step": 3620
    },
    {
      "epoch": 1.87,
      "learning_rate": 2.0854847963281698e-07,
      "logits/chosen": -2.450810194015503,
      "logits/rejected": -2.3714869022369385,
      "logps/chosen": -290.0536804199219,
      "logps/rejected": -285.4010009765625,
      "loss": 0.076,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.6087032556533813,
      "rewards/margins": 5.092909336090088,
      "rewards/rejected": -5.70161247253418,
      "step": 3630
    },
    {
      "epoch": 1.88,
      "learning_rate": 2.0759227385733407e-07,
      "logits/chosen": -2.564415216445923,
      "logits/rejected": -2.6595184803009033,
      "logps/chosen": -372.54949951171875,
      "logps/rejected": -315.68438720703125,
      "loss": 0.1015,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.47370368242263794,
      "rewards/margins": 6.991959571838379,
      "rewards/rejected": -7.465662479400635,
      "step": 3640
    },
    {
      "epoch": 1.88,
      "learning_rate": 2.066360680818512e-07,
      "logits/chosen": -2.651179552078247,
      "logits/rejected": -2.6251769065856934,
      "logps/chosen": -375.2741394042969,
      "logps/rejected": -317.2344055175781,
      "loss": 0.1108,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.11416218429803848,
      "rewards/margins": 7.2585554122924805,
      "rewards/rejected": -7.144394874572754,
      "step": 3650
    },
    {
      "epoch": 1.89,
      "learning_rate": 2.0567986230636832e-07,
      "logits/chosen": -2.5170671939849854,
      "logits/rejected": -2.639958620071411,
      "logps/chosen": -219.71676635742188,
      "logps/rejected": -264.04632568359375,
      "loss": 0.0927,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3074165880680084,
      "rewards/margins": 5.667797565460205,
      "rewards/rejected": -5.975214004516602,
      "step": 3660
    },
    {
      "epoch": 1.89,
      "learning_rate": 2.0472365653088544e-07,
      "logits/chosen": -2.646237850189209,
      "logits/rejected": -2.712930679321289,
      "logps/chosen": -297.159423828125,
      "logps/rejected": -336.8759765625,
      "loss": 0.0811,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.833897590637207,
      "rewards/margins": 6.053628444671631,
      "rewards/rejected": -6.887526035308838,
      "step": 3670
    },
    {
      "epoch": 1.9,
      "learning_rate": 2.0376745075540256e-07,
      "logits/chosen": -2.8176498413085938,
      "logits/rejected": -2.798159122467041,
      "logps/chosen": -279.7525634765625,
      "logps/rejected": -284.43316650390625,
      "loss": 0.0621,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.006855732295662165,
      "rewards/margins": 6.67547082901001,
      "rewards/rejected": -6.682325839996338,
      "step": 3680
    },
    {
      "epoch": 1.91,
      "learning_rate": 2.0281124497991967e-07,
      "logits/chosen": -2.7028536796569824,
      "logits/rejected": -2.6612937450408936,
      "logps/chosen": -252.33505249023438,
      "logps/rejected": -403.2816467285156,
      "loss": 0.0998,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.05786427855491638,
      "rewards/margins": 7.661648750305176,
      "rewards/rejected": -7.603785037994385,
      "step": 3690
    },
    {
      "epoch": 1.91,
      "learning_rate": 2.018550392044368e-07,
      "logits/chosen": -2.7595086097717285,
      "logits/rejected": -2.681696653366089,
      "logps/chosen": -295.5634460449219,
      "logps/rejected": -494.0884704589844,
      "loss": 0.0746,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.988511860370636,
      "rewards/margins": 10.416128158569336,
      "rewards/rejected": -9.427616119384766,
      "step": 3700
    },
    {
      "epoch": 1.91,
      "eval_logits/chosen": -2.5114712715148926,
      "eval_logits/rejected": -2.468604564666748,
      "eval_logps/chosen": -273.5149230957031,
      "eval_logps/rejected": -301.87615966796875,
      "eval_loss": 0.5788707137107849,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -1.9279824495315552,
      "eval_rewards/margins": 2.562638521194458,
      "eval_rewards/rejected": -4.4906206130981445,
      "eval_runtime": 56.2772,
      "eval_samples_per_second": 17.769,
      "eval_steps_per_second": 0.284,
      "step": 3700
    },
    {
      "epoch": 1.92,
      "learning_rate": 2.0089883342895388e-07,
      "logits/chosen": -2.7059268951416016,
      "logits/rejected": -2.753756523132324,
      "logps/chosen": -202.04066467285156,
      "logps/rejected": -245.59237670898438,
      "loss": 0.075,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.1704142987728119,
      "rewards/margins": 6.434650421142578,
      "rewards/rejected": -6.605063438415527,
      "step": 3710
    },
    {
      "epoch": 1.92,
      "learning_rate": 1.9994262765347102e-07,
      "logits/chosen": -2.642674207687378,
      "logits/rejected": -2.5932514667510986,
      "logps/chosen": -399.32305908203125,
      "logps/rejected": -326.49798583984375,
      "loss": 0.134,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.060870956629514694,
      "rewards/margins": 6.860370635986328,
      "rewards/rejected": -6.921241760253906,
      "step": 3720
    },
    {
      "epoch": 1.93,
      "learning_rate": 1.9898642187798813e-07,
      "logits/chosen": -2.6123080253601074,
      "logits/rejected": -2.7516627311706543,
      "logps/chosen": -410.9776306152344,
      "logps/rejected": -326.8647155761719,
      "loss": 0.0628,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.07760889828205109,
      "rewards/margins": 6.036097049713135,
      "rewards/rejected": -6.113706111907959,
      "step": 3730
    },
    {
      "epoch": 1.93,
      "learning_rate": 1.9803021610250525e-07,
      "logits/chosen": -2.641099452972412,
      "logits/rejected": -2.711040735244751,
      "logps/chosen": -216.26535034179688,
      "logps/rejected": -274.23516845703125,
      "loss": 0.0742,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.5522519946098328,
      "rewards/margins": 6.619080543518066,
      "rewards/rejected": -6.06682825088501,
      "step": 3740
    },
    {
      "epoch": 1.94,
      "learning_rate": 1.9707401032702237e-07,
      "logits/chosen": -2.6930148601531982,
      "logits/rejected": -2.691132068634033,
      "logps/chosen": -269.2910461425781,
      "logps/rejected": -311.1435241699219,
      "loss": 0.0593,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.5175756216049194,
      "rewards/margins": 6.387923240661621,
      "rewards/rejected": -5.870347023010254,
      "step": 3750
    },
    {
      "epoch": 1.94,
      "learning_rate": 1.9611780455153948e-07,
      "logits/chosen": -2.7549490928649902,
      "logits/rejected": -2.7406229972839355,
      "logps/chosen": -292.29833984375,
      "logps/rejected": -254.7724609375,
      "loss": 0.1138,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.20989219844341278,
      "rewards/margins": 5.599099159240723,
      "rewards/rejected": -5.389206886291504,
      "step": 3760
    },
    {
      "epoch": 1.95,
      "learning_rate": 1.951615987760566e-07,
      "logits/chosen": -2.5066380500793457,
      "logits/rejected": -2.4894328117370605,
      "logps/chosen": -221.491455078125,
      "logps/rejected": -262.5354309082031,
      "loss": 0.072,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.48722711205482483,
      "rewards/margins": 4.931153297424316,
      "rewards/rejected": -5.418381214141846,
      "step": 3770
    },
    {
      "epoch": 1.95,
      "learning_rate": 1.942053930005737e-07,
      "logits/chosen": -2.8080992698669434,
      "logits/rejected": -2.69472074508667,
      "logps/chosen": -234.15390014648438,
      "logps/rejected": -300.17291259765625,
      "loss": 0.0526,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7450860142707825,
      "rewards/margins": 7.135354518890381,
      "rewards/rejected": -7.880439758300781,
      "step": 3780
    },
    {
      "epoch": 1.96,
      "learning_rate": 1.9324918722509086e-07,
      "logits/chosen": -2.763511896133423,
      "logits/rejected": -2.758317708969116,
      "logps/chosen": -267.06695556640625,
      "logps/rejected": -251.7860107421875,
      "loss": 0.0843,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5050710439682007,
      "rewards/margins": 6.807704925537109,
      "rewards/rejected": -7.3127760887146,
      "step": 3790
    },
    {
      "epoch": 1.96,
      "learning_rate": 1.9229298144960794e-07,
      "logits/chosen": -2.6397032737731934,
      "logits/rejected": -2.6277005672454834,
      "logps/chosen": -230.0516357421875,
      "logps/rejected": -253.93594360351562,
      "loss": 0.1348,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -0.08455387502908707,
      "rewards/margins": 5.982255458831787,
      "rewards/rejected": -6.06680965423584,
      "step": 3800
    },
    {
      "epoch": 1.96,
      "eval_logits/chosen": -2.5393259525299072,
      "eval_logits/rejected": -2.494310140609741,
      "eval_logps/chosen": -272.8935546875,
      "eval_logps/rejected": -299.39764404296875,
      "eval_loss": 0.6015481352806091,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -1.865846872329712,
      "eval_rewards/margins": 2.376923084259033,
      "eval_rewards/rejected": -4.242770195007324,
      "eval_runtime": 57.6051,
      "eval_samples_per_second": 17.36,
      "eval_steps_per_second": 0.278,
      "step": 3800
    },
    {
      "epoch": 1.97,
      "learning_rate": 1.9133677567412506e-07,
      "logits/chosen": -2.790476083755493,
      "logits/rejected": -2.786289691925049,
      "logps/chosen": -319.78619384765625,
      "logps/rejected": -282.0672607421875,
      "loss": 0.0818,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.11253446340560913,
      "rewards/margins": 6.30682897567749,
      "rewards/rejected": -6.419363498687744,
      "step": 3810
    },
    {
      "epoch": 1.97,
      "learning_rate": 1.9038056989864218e-07,
      "logits/chosen": -2.7111282348632812,
      "logits/rejected": -2.765439033508301,
      "logps/chosen": -256.03546142578125,
      "logps/rejected": -314.55523681640625,
      "loss": 0.1137,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.10970799624919891,
      "rewards/margins": 6.709108829498291,
      "rewards/rejected": -6.818817138671875,
      "step": 3820
    },
    {
      "epoch": 1.98,
      "learning_rate": 1.894243641231593e-07,
      "logits/chosen": -2.5691027641296387,
      "logits/rejected": -2.4961977005004883,
      "logps/chosen": -272.5830993652344,
      "logps/rejected": -250.82357788085938,
      "loss": 0.103,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4049804210662842,
      "rewards/margins": 5.012188911437988,
      "rewards/rejected": -6.417168617248535,
      "step": 3830
    },
    {
      "epoch": 1.98,
      "learning_rate": 1.884681583476764e-07,
      "logits/chosen": -2.8165037631988525,
      "logits/rejected": -2.76141357421875,
      "logps/chosen": -229.1115264892578,
      "logps/rejected": -300.12347412109375,
      "loss": 0.0621,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.30909544229507446,
      "rewards/margins": 5.961316108703613,
      "rewards/rejected": -6.270411968231201,
      "step": 3840
    },
    {
      "epoch": 1.99,
      "learning_rate": 1.8751195257219352e-07,
      "logits/chosen": -2.683171272277832,
      "logits/rejected": -2.74794602394104,
      "logps/chosen": -281.92901611328125,
      "logps/rejected": -404.372314453125,
      "loss": 0.0803,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3100479245185852,
      "rewards/margins": 7.182066440582275,
      "rewards/rejected": -7.492114067077637,
      "step": 3850
    },
    {
      "epoch": 1.99,
      "learning_rate": 1.8655574679671067e-07,
      "logits/chosen": -2.660099506378174,
      "logits/rejected": -2.69828724861145,
      "logps/chosen": -241.91787719726562,
      "logps/rejected": -317.3074951171875,
      "loss": 0.0951,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.469612717628479,
      "rewards/margins": 7.08514404296875,
      "rewards/rejected": -8.554756164550781,
      "step": 3860
    },
    {
      "epoch": 2.0,
      "learning_rate": 1.8559954102122778e-07,
      "logits/chosen": -2.550110340118408,
      "logits/rejected": -2.5635857582092285,
      "logps/chosen": -280.5724792480469,
      "logps/rejected": -239.25119018554688,
      "loss": 0.1036,
      "rewards/accuracies": 0.8500000238418579,
      "rewards/chosen": -1.0125322341918945,
      "rewards/margins": 4.381348609924316,
      "rewards/rejected": -5.393881320953369,
      "step": 3870
    },
    {
      "epoch": 2.0,
      "learning_rate": 1.8464333524574487e-07,
      "logits/chosen": -2.7105534076690674,
      "logits/rejected": -2.670560598373413,
      "logps/chosen": -213.32907104492188,
      "logps/rejected": -330.0856628417969,
      "loss": 0.0344,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.48191890120506287,
      "rewards/margins": 7.262728691101074,
      "rewards/rejected": -7.744647026062012,
      "step": 3880
    },
    {
      "epoch": 2.01,
      "learning_rate": 1.8368712947026199e-07,
      "logits/chosen": -2.8019955158233643,
      "logits/rejected": -2.7659356594085693,
      "logps/chosen": -305.8590393066406,
      "logps/rejected": -306.02325439453125,
      "loss": 0.022,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.42963480949401855,
      "rewards/margins": 6.8882341384887695,
      "rewards/rejected": -6.458600044250488,
      "step": 3890
    },
    {
      "epoch": 2.01,
      "learning_rate": 1.827309236947791e-07,
      "logits/chosen": -2.6406970024108887,
      "logits/rejected": -2.6530818939208984,
      "logps/chosen": -155.24813842773438,
      "logps/rejected": -301.69390869140625,
      "loss": 0.0217,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.34457913041114807,
      "rewards/margins": 6.758476257324219,
      "rewards/rejected": -7.103055000305176,
      "step": 3900
    },
    {
      "epoch": 2.01,
      "eval_logits/chosen": -2.5271873474121094,
      "eval_logits/rejected": -2.4840664863586426,
      "eval_logps/chosen": -277.5699157714844,
      "eval_logps/rejected": -306.1987609863281,
      "eval_loss": 0.612151563167572,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -2.3334813117980957,
      "eval_rewards/margins": 2.589404582977295,
      "eval_rewards/rejected": -4.922885894775391,
      "eval_runtime": 54.5082,
      "eval_samples_per_second": 18.346,
      "eval_steps_per_second": 0.294,
      "step": 3900
    },
    {
      "epoch": 2.02,
      "learning_rate": 1.8177471791929622e-07,
      "logits/chosen": -2.416943073272705,
      "logits/rejected": -2.4777729511260986,
      "logps/chosen": -234.59054565429688,
      "logps/rejected": -378.48101806640625,
      "loss": 0.0294,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7428705096244812,
      "rewards/margins": 10.251193046569824,
      "rewards/rejected": -10.994062423706055,
      "step": 3910
    },
    {
      "epoch": 2.02,
      "learning_rate": 1.8081851214381333e-07,
      "logits/chosen": -2.6043264865875244,
      "logits/rejected": -2.5203278064727783,
      "logps/chosen": -263.97882080078125,
      "logps/rejected": -393.0724182128906,
      "loss": 0.0121,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.05669177696108818,
      "rewards/margins": 8.67068099975586,
      "rewards/rejected": -8.613988876342773,
      "step": 3920
    },
    {
      "epoch": 2.03,
      "learning_rate": 1.7986230636833047e-07,
      "logits/chosen": -2.6340689659118652,
      "logits/rejected": -2.6645379066467285,
      "logps/chosen": -179.75973510742188,
      "logps/rejected": -246.31448364257812,
      "loss": 0.0189,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3356815576553345,
      "rewards/margins": 6.356654167175293,
      "rewards/rejected": -7.692336082458496,
      "step": 3930
    },
    {
      "epoch": 2.03,
      "learning_rate": 1.789061005928476e-07,
      "logits/chosen": -2.812453269958496,
      "logits/rejected": -2.752922534942627,
      "logps/chosen": -276.16876220703125,
      "logps/rejected": -295.46429443359375,
      "loss": 0.0279,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.023592447862029076,
      "rewards/margins": 7.244173526763916,
      "rewards/rejected": -7.2205810546875,
      "step": 3940
    },
    {
      "epoch": 2.04,
      "learning_rate": 1.7794989481736468e-07,
      "logits/chosen": -2.6128292083740234,
      "logits/rejected": -2.644348382949829,
      "logps/chosen": -243.8308563232422,
      "logps/rejected": -270.5189514160156,
      "loss": 0.0299,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.30936262011528015,
      "rewards/margins": 8.135075569152832,
      "rewards/rejected": -8.444437026977539,
      "step": 3950
    },
    {
      "epoch": 2.04,
      "learning_rate": 1.769936890418818e-07,
      "logits/chosen": -2.5391926765441895,
      "logits/rejected": -2.5172486305236816,
      "logps/chosen": -303.0284729003906,
      "logps/rejected": -303.38739013671875,
      "loss": 0.0178,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.04590020328760147,
      "rewards/margins": 7.713925361633301,
      "rewards/rejected": -7.668023586273193,
      "step": 3960
    },
    {
      "epoch": 2.05,
      "learning_rate": 1.760374832663989e-07,
      "logits/chosen": -2.785437822341919,
      "logits/rejected": -2.667668104171753,
      "logps/chosen": -374.7364807128906,
      "logps/rejected": -371.83050537109375,
      "loss": 0.0097,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.3061269521713257,
      "rewards/margins": 10.878585815429688,
      "rewards/rejected": -9.572458267211914,
      "step": 3970
    },
    {
      "epoch": 2.05,
      "learning_rate": 1.7508127749091603e-07,
      "logits/chosen": -2.6636507511138916,
      "logits/rejected": -2.622056007385254,
      "logps/chosen": -272.5489196777344,
      "logps/rejected": -296.45025634765625,
      "loss": 0.0159,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6961295008659363,
      "rewards/margins": 7.3043532371521,
      "rewards/rejected": -8.000483512878418,
      "step": 3980
    },
    {
      "epoch": 2.06,
      "learning_rate": 1.7412507171543314e-07,
      "logits/chosen": -2.6111302375793457,
      "logits/rejected": -2.7141504287719727,
      "logps/chosen": -306.14471435546875,
      "logps/rejected": -277.4181213378906,
      "loss": 0.0378,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.2339712679386139,
      "rewards/margins": 8.951885223388672,
      "rewards/rejected": -9.185856819152832,
      "step": 3990
    },
    {
      "epoch": 2.07,
      "learning_rate": 1.7316886593995028e-07,
      "logits/chosen": -2.770508289337158,
      "logits/rejected": -2.7339038848876953,
      "logps/chosen": -301.5724182128906,
      "logps/rejected": -351.9184875488281,
      "loss": 0.0219,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5096687078475952,
      "rewards/margins": 8.371912956237793,
      "rewards/rejected": -8.881582260131836,
      "step": 4000
    },
    {
      "epoch": 2.07,
      "eval_logits/chosen": -2.454496383666992,
      "eval_logits/rejected": -2.4104785919189453,
      "eval_logps/chosen": -284.124755859375,
      "eval_logps/rejected": -317.1334228515625,
      "eval_loss": 0.6521932482719421,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -2.988966464996338,
      "eval_rewards/margins": 3.0273852348327637,
      "eval_rewards/rejected": -6.016351222991943,
      "eval_runtime": 61.6079,
      "eval_samples_per_second": 16.232,
      "eval_steps_per_second": 0.26,
      "step": 4000
    },
    {
      "epoch": 2.07,
      "learning_rate": 1.722126601644674e-07,
      "logits/chosen": -2.7440953254699707,
      "logits/rejected": -2.736643075942993,
      "logps/chosen": -323.197998046875,
      "logps/rejected": -265.2000732421875,
      "loss": 0.0133,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9906817674636841,
      "rewards/margins": 7.5294013023376465,
      "rewards/rejected": -8.520084381103516,
      "step": 4010
    },
    {
      "epoch": 2.08,
      "learning_rate": 1.7125645438898452e-07,
      "logits/chosen": -2.7173900604248047,
      "logits/rejected": -2.676675319671631,
      "logps/chosen": -314.3374938964844,
      "logps/rejected": -355.52618408203125,
      "loss": 0.0061,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3634423315525055,
      "rewards/margins": 9.33686637878418,
      "rewards/rejected": -9.700309753417969,
      "step": 4020
    },
    {
      "epoch": 2.08,
      "learning_rate": 1.703002486135016e-07,
      "logits/chosen": -2.6162686347961426,
      "logits/rejected": -2.603562593460083,
      "logps/chosen": -248.433837890625,
      "logps/rejected": -305.6585388183594,
      "loss": 0.0108,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.43873992562294006,
      "rewards/margins": 10.635756492614746,
      "rewards/rejected": -11.07449722290039,
      "step": 4030
    },
    {
      "epoch": 2.09,
      "learning_rate": 1.6934404283801872e-07,
      "logits/chosen": -2.52081036567688,
      "logits/rejected": -2.3590970039367676,
      "logps/chosen": -352.1839904785156,
      "logps/rejected": -366.2679138183594,
      "loss": 0.0083,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.43957453966140747,
      "rewards/margins": 11.327077865600586,
      "rewards/rejected": -10.887503623962402,
      "step": 4040
    },
    {
      "epoch": 2.09,
      "learning_rate": 1.6838783706253584e-07,
      "logits/chosen": -2.640784502029419,
      "logits/rejected": -2.524874687194824,
      "logps/chosen": -167.76235961914062,
      "logps/rejected": -211.56985473632812,
      "loss": 0.0156,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.1560419499874115,
      "rewards/margins": 8.205093383789062,
      "rewards/rejected": -8.049051284790039,
      "step": 4050
    },
    {
      "epoch": 2.1,
      "learning_rate": 1.6743163128705295e-07,
      "logits/chosen": -2.604750156402588,
      "logits/rejected": -2.5685653686523438,
      "logps/chosen": -289.0841064453125,
      "logps/rejected": -324.72552490234375,
      "loss": 0.0133,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.2151424884796143,
      "rewards/margins": 8.238618850708008,
      "rewards/rejected": -10.453761100769043,
      "step": 4060
    },
    {
      "epoch": 2.1,
      "learning_rate": 1.664754255115701e-07,
      "logits/chosen": -2.4264097213745117,
      "logits/rejected": -2.375046730041504,
      "logps/chosen": -224.1468505859375,
      "logps/rejected": -290.3971862792969,
      "loss": 0.0178,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.14240024983882904,
      "rewards/margins": 9.841353416442871,
      "rewards/rejected": -9.698953628540039,
      "step": 4070
    },
    {
      "epoch": 2.11,
      "learning_rate": 1.655192197360872e-07,
      "logits/chosen": -2.753242254257202,
      "logits/rejected": -2.6922965049743652,
      "logps/chosen": -274.47601318359375,
      "logps/rejected": -324.0868835449219,
      "loss": 0.0062,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3948326110839844,
      "rewards/margins": 8.828141212463379,
      "rewards/rejected": -9.22297477722168,
      "step": 4080
    },
    {
      "epoch": 2.11,
      "learning_rate": 1.6456301396060433e-07,
      "logits/chosen": -2.554525375366211,
      "logits/rejected": -2.6398258209228516,
      "logps/chosen": -365.6826477050781,
      "logps/rejected": -360.66107177734375,
      "loss": 0.019,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.2733768820762634,
      "rewards/margins": 8.528050422668457,
      "rewards/rejected": -8.801426887512207,
      "step": 4090
    },
    {
      "epoch": 2.12,
      "learning_rate": 1.6360680818512144e-07,
      "logits/chosen": -2.7123589515686035,
      "logits/rejected": -2.61602783203125,
      "logps/chosen": -368.64544677734375,
      "logps/rejected": -432.6624450683594,
      "loss": 0.0119,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.055361270904541,
      "rewards/margins": 8.865598678588867,
      "rewards/rejected": -9.920958518981934,
      "step": 4100
    },
    {
      "epoch": 2.12,
      "eval_logits/chosen": -2.4698657989501953,
      "eval_logits/rejected": -2.4272119998931885,
      "eval_logps/chosen": -289.0121154785156,
      "eval_logps/rejected": -323.7186584472656,
      "eval_loss": 0.692164421081543,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -3.477701187133789,
      "eval_rewards/margins": 3.197173595428467,
      "eval_rewards/rejected": -6.674875259399414,
      "eval_runtime": 57.1311,
      "eval_samples_per_second": 17.504,
      "eval_steps_per_second": 0.28,
      "step": 4100
    },
    {
      "epoch": 2.12,
      "learning_rate": 1.6265060240963853e-07,
      "logits/chosen": -2.6370177268981934,
      "logits/rejected": -2.5220537185668945,
      "logps/chosen": -334.99066162109375,
      "logps/rejected": -290.169189453125,
      "loss": 0.0078,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.933539867401123,
      "rewards/margins": 8.522821426391602,
      "rewards/rejected": -7.589282989501953,
      "step": 4110
    },
    {
      "epoch": 2.13,
      "learning_rate": 1.6169439663415565e-07,
      "logits/chosen": -2.6449599266052246,
      "logits/rejected": -2.6207022666931152,
      "logps/chosen": -269.48529052734375,
      "logps/rejected": -324.10418701171875,
      "loss": 0.0086,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.8957691192626953,
      "rewards/margins": 9.796669960021973,
      "rewards/rejected": -10.692439079284668,
      "step": 4120
    },
    {
      "epoch": 2.13,
      "learning_rate": 1.6073819085867276e-07,
      "logits/chosen": -2.797229290008545,
      "logits/rejected": -2.7991158962249756,
      "logps/chosen": -309.7330627441406,
      "logps/rejected": -439.6482849121094,
      "loss": 0.0158,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.3518083095550537,
      "rewards/margins": 11.625936508178711,
      "rewards/rejected": -10.274128913879395,
      "step": 4130
    },
    {
      "epoch": 2.14,
      "learning_rate": 1.597819850831899e-07,
      "logits/chosen": -2.752419948577881,
      "logits/rejected": -2.6186330318450928,
      "logps/chosen": -208.90380859375,
      "logps/rejected": -247.1297149658203,
      "loss": 0.0054,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.2973028421401978,
      "rewards/margins": 9.918791770935059,
      "rewards/rejected": -8.621490478515625,
      "step": 4140
    },
    {
      "epoch": 2.14,
      "learning_rate": 1.5882577930770702e-07,
      "logits/chosen": -2.5983939170837402,
      "logits/rejected": -2.551213502883911,
      "logps/chosen": -321.56195068359375,
      "logps/rejected": -328.3628234863281,
      "loss": 0.0088,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.38840678334236145,
      "rewards/margins": 10.420036315917969,
      "rewards/rejected": -10.03162956237793,
      "step": 4150
    },
    {
      "epoch": 2.15,
      "learning_rate": 1.5786957353222414e-07,
      "logits/chosen": -2.5684826374053955,
      "logits/rejected": -2.608212471008301,
      "logps/chosen": -272.9964599609375,
      "logps/rejected": -265.1176452636719,
      "loss": 0.0104,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0111887454986572,
      "rewards/margins": 7.318711280822754,
      "rewards/rejected": -8.329900741577148,
      "step": 4160
    },
    {
      "epoch": 2.15,
      "learning_rate": 1.5691336775674125e-07,
      "logits/chosen": -2.4619576930999756,
      "logits/rejected": -2.555619716644287,
      "logps/chosen": -268.24859619140625,
      "logps/rejected": -298.4876403808594,
      "loss": 0.0098,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.17980532348155975,
      "rewards/margins": 9.836331367492676,
      "rewards/rejected": -10.01613712310791,
      "step": 4170
    },
    {
      "epoch": 2.16,
      "learning_rate": 1.5595716198125837e-07,
      "logits/chosen": -2.7515110969543457,
      "logits/rejected": -2.7178173065185547,
      "logps/chosen": -400.4342346191406,
      "logps/rejected": -458.4161682128906,
      "loss": 0.0081,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9931119084358215,
      "rewards/margins": 10.737370491027832,
      "rewards/rejected": -11.73048210144043,
      "step": 4180
    },
    {
      "epoch": 2.16,
      "learning_rate": 1.5500095620577546e-07,
      "logits/chosen": -2.6951303482055664,
      "logits/rejected": -2.748305559158325,
      "logps/chosen": -240.6981201171875,
      "logps/rejected": -257.77752685546875,
      "loss": 0.0113,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.5856528282165527,
      "rewards/margins": 7.461671352386475,
      "rewards/rejected": -9.047324180603027,
      "step": 4190
    },
    {
      "epoch": 2.17,
      "learning_rate": 1.5404475043029257e-07,
      "logits/chosen": -2.5231451988220215,
      "logits/rejected": -2.5645296573638916,
      "logps/chosen": -191.24134826660156,
      "logps/rejected": -325.54949951171875,
      "loss": 0.0153,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.5546247959136963,
      "rewards/margins": 8.656599998474121,
      "rewards/rejected": -10.211225509643555,
      "step": 4200
    },
    {
      "epoch": 2.17,
      "eval_logits/chosen": -2.4464974403381348,
      "eval_logits/rejected": -2.4046523571014404,
      "eval_logps/chosen": -286.6412658691406,
      "eval_logps/rejected": -323.7452697753906,
      "eval_loss": 0.6993398666381836,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -3.2406165599823,
      "eval_rewards/margins": 3.4369187355041504,
      "eval_rewards/rejected": -6.677535533905029,
      "eval_runtime": 54.7971,
      "eval_samples_per_second": 18.249,
      "eval_steps_per_second": 0.292,
      "step": 4200
    },
    {
      "epoch": 2.17,
      "learning_rate": 1.5308854465480971e-07,
      "logits/chosen": -2.6298282146453857,
      "logits/rejected": -2.6375985145568848,
      "logps/chosen": -293.63629150390625,
      "logps/rejected": -297.9925537109375,
      "loss": 0.0112,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0975180864334106,
      "rewards/margins": 8.3226318359375,
      "rewards/rejected": -9.420149803161621,
      "step": 4210
    },
    {
      "epoch": 2.18,
      "learning_rate": 1.5213233887932683e-07,
      "logits/chosen": -2.5850603580474854,
      "logits/rejected": -2.606503963470459,
      "logps/chosen": -316.19854736328125,
      "logps/rejected": -332.8941955566406,
      "loss": 0.0088,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.9063823819160461,
      "rewards/margins": 7.739400386810303,
      "rewards/rejected": -8.645783424377441,
      "step": 4220
    },
    {
      "epoch": 2.18,
      "learning_rate": 1.5117613310384395e-07,
      "logits/chosen": -2.5701706409454346,
      "logits/rejected": -2.5911612510681152,
      "logps/chosen": -269.97894287109375,
      "logps/rejected": -319.3363342285156,
      "loss": 0.0079,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6825813055038452,
      "rewards/margins": 10.70821762084961,
      "rewards/rejected": -11.390798568725586,
      "step": 4230
    },
    {
      "epoch": 2.19,
      "learning_rate": 1.5021992732836106e-07,
      "logits/chosen": -2.4653377532958984,
      "logits/rejected": -2.5559732913970947,
      "logps/chosen": -279.4239196777344,
      "logps/rejected": -356.7681884765625,
      "loss": 0.0143,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9881469011306763,
      "rewards/margins": 9.201104164123535,
      "rewards/rejected": -10.189250946044922,
      "step": 4240
    },
    {
      "epoch": 2.19,
      "learning_rate": 1.4926372155287818e-07,
      "logits/chosen": -2.7210116386413574,
      "logits/rejected": -2.593418836593628,
      "logps/chosen": -228.53121948242188,
      "logps/rejected": -271.88787841796875,
      "loss": 0.0185,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9970628619194031,
      "rewards/margins": 8.71868896484375,
      "rewards/rejected": -9.715751647949219,
      "step": 4250
    },
    {
      "epoch": 2.2,
      "learning_rate": 1.483075157773953e-07,
      "logits/chosen": -2.5943050384521484,
      "logits/rejected": -2.673746347427368,
      "logps/chosen": -251.91336059570312,
      "logps/rejected": -270.3241271972656,
      "loss": 0.0095,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.251340627670288,
      "rewards/margins": 8.234782218933105,
      "rewards/rejected": -9.486123085021973,
      "step": 4260
    },
    {
      "epoch": 2.2,
      "learning_rate": 1.4735131000191238e-07,
      "logits/chosen": -2.6009936332702637,
      "logits/rejected": -2.607675313949585,
      "logps/chosen": -309.9886169433594,
      "logps/rejected": -332.39801025390625,
      "loss": 0.0121,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0659501552581787,
      "rewards/margins": 9.141355514526367,
      "rewards/rejected": -10.207304954528809,
      "step": 4270
    },
    {
      "epoch": 2.21,
      "learning_rate": 1.4639510422642952e-07,
      "logits/chosen": -2.7442212104797363,
      "logits/rejected": -2.6310532093048096,
      "logps/chosen": -345.13616943359375,
      "logps/rejected": -405.30755615234375,
      "loss": 0.01,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7909820079803467,
      "rewards/margins": 9.60711669921875,
      "rewards/rejected": -10.398099899291992,
      "step": 4280
    },
    {
      "epoch": 2.21,
      "learning_rate": 1.4543889845094664e-07,
      "logits/chosen": -2.4257078170776367,
      "logits/rejected": -2.461683750152588,
      "logps/chosen": -375.21478271484375,
      "logps/rejected": -433.16973876953125,
      "loss": 0.0485,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.8098801374435425,
      "rewards/margins": 11.403145790100098,
      "rewards/rejected": -12.21302604675293,
      "step": 4290
    },
    {
      "epoch": 2.22,
      "learning_rate": 1.4448269267546376e-07,
      "logits/chosen": -2.7228384017944336,
      "logits/rejected": -2.763788938522339,
      "logps/chosen": -330.9010314941406,
      "logps/rejected": -367.5445861816406,
      "loss": 0.011,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.8657931089401245,
      "rewards/margins": 10.422277450561523,
      "rewards/rejected": -9.55648422241211,
      "step": 4300
    },
    {
      "epoch": 2.22,
      "eval_logits/chosen": -2.428981304168701,
      "eval_logits/rejected": -2.3842594623565674,
      "eval_logps/chosen": -292.2260437011719,
      "eval_logps/rejected": -331.3666687011719,
      "eval_loss": 0.7177846431732178,
      "eval_rewards/accuracies": 0.765625,
      "eval_rewards/chosen": -3.7990951538085938,
      "eval_rewards/margins": 3.6405770778656006,
      "eval_rewards/rejected": -7.439671993255615,
      "eval_runtime": 57.5668,
      "eval_samples_per_second": 17.371,
      "eval_steps_per_second": 0.278,
      "step": 4300
    },
    {
      "epoch": 2.23,
      "learning_rate": 1.4352648689998087e-07,
      "logits/chosen": -2.6788887977600098,
      "logits/rejected": -2.659087657928467,
      "logps/chosen": -255.2762908935547,
      "logps/rejected": -230.3298797607422,
      "loss": 0.0081,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5762121081352234,
      "rewards/margins": 9.638313293457031,
      "rewards/rejected": -10.21452522277832,
      "step": 4310
    },
    {
      "epoch": 2.23,
      "learning_rate": 1.42570281124498e-07,
      "logits/chosen": -2.5874216556549072,
      "logits/rejected": -2.647291898727417,
      "logps/chosen": -264.53802490234375,
      "logps/rejected": -368.0313415527344,
      "loss": 0.0123,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.9759609699249268,
      "rewards/margins": 9.195481300354004,
      "rewards/rejected": -11.171442031860352,
      "step": 4320
    },
    {
      "epoch": 2.24,
      "learning_rate": 1.416140753490151e-07,
      "logits/chosen": -2.6484475135803223,
      "logits/rejected": -2.7253453731536865,
      "logps/chosen": -338.7431640625,
      "logps/rejected": -423.6756896972656,
      "loss": 0.0099,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.1497945338487625,
      "rewards/margins": 11.79082202911377,
      "rewards/rejected": -11.940614700317383,
      "step": 4330
    },
    {
      "epoch": 2.24,
      "learning_rate": 1.4065786957353222e-07,
      "logits/chosen": -2.5038111209869385,
      "logits/rejected": -2.5019071102142334,
      "logps/chosen": -315.7591552734375,
      "logps/rejected": -336.18963623046875,
      "loss": 0.0246,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.016095232218503952,
      "rewards/margins": 8.441411018371582,
      "rewards/rejected": -8.425315856933594,
      "step": 4340
    },
    {
      "epoch": 2.25,
      "learning_rate": 1.3970166379804933e-07,
      "logits/chosen": -2.49928879737854,
      "logits/rejected": -2.376461982727051,
      "logps/chosen": -380.0243225097656,
      "logps/rejected": -395.73077392578125,
      "loss": 0.0177,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.1554236114025116,
      "rewards/margins": 9.892860412597656,
      "rewards/rejected": -10.048284530639648,
      "step": 4350
    },
    {
      "epoch": 2.25,
      "learning_rate": 1.3874545802256645e-07,
      "logits/chosen": -2.758044481277466,
      "logits/rejected": -2.6601271629333496,
      "logps/chosen": -311.03436279296875,
      "logps/rejected": -419.60418701171875,
      "loss": 0.0129,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6286399364471436,
      "rewards/margins": 10.120224952697754,
      "rewards/rejected": -11.748865127563477,
      "step": 4360
    },
    {
      "epoch": 2.26,
      "learning_rate": 1.3778925224708357e-07,
      "logits/chosen": -2.516096830368042,
      "logits/rejected": -2.5368704795837402,
      "logps/chosen": -253.93722534179688,
      "logps/rejected": -275.40423583984375,
      "loss": 0.006,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.05337781831622124,
      "rewards/margins": 8.323257446289062,
      "rewards/rejected": -8.376635551452637,
      "step": 4370
    },
    {
      "epoch": 2.26,
      "learning_rate": 1.3683304647160068e-07,
      "logits/chosen": -2.6350722312927246,
      "logits/rejected": -2.5284571647644043,
      "logps/chosen": -279.087158203125,
      "logps/rejected": -357.74542236328125,
      "loss": 0.0119,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0737884044647217,
      "rewards/margins": 10.794805526733398,
      "rewards/rejected": -11.868593215942383,
      "step": 4380
    },
    {
      "epoch": 2.27,
      "learning_rate": 1.358768406961178e-07,
      "logits/chosen": -2.6859638690948486,
      "logits/rejected": -2.735161066055298,
      "logps/chosen": -295.9905700683594,
      "logps/rejected": -444.8924255371094,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.7544025778770447,
      "rewards/margins": 10.69865608215332,
      "rewards/rejected": -9.944252967834473,
      "step": 4390
    },
    {
      "epoch": 2.27,
      "learning_rate": 1.349206349206349e-07,
      "logits/chosen": -2.757059335708618,
      "logits/rejected": -2.771275520324707,
      "logps/chosen": -266.63800048828125,
      "logps/rejected": -281.4782409667969,
      "loss": 0.0072,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0992039442062378,
      "rewards/margins": 8.593305587768555,
      "rewards/rejected": -9.692508697509766,
      "step": 4400
    },
    {
      "epoch": 2.27,
      "eval_logits/chosen": -2.4535796642303467,
      "eval_logits/rejected": -2.4095299243927,
      "eval_logps/chosen": -287.504150390625,
      "eval_logps/rejected": -324.9907531738281,
      "eval_loss": 0.6839932203292847,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -3.326904535293579,
      "eval_rewards/margins": 3.47517728805542,
      "eval_rewards/rejected": -6.802082061767578,
      "eval_runtime": 58.0489,
      "eval_samples_per_second": 17.227,
      "eval_steps_per_second": 0.276,
      "step": 4400
    },
    {
      "epoch": 2.28,
      "learning_rate": 1.3396442914515203e-07,
      "logits/chosen": -2.330714464187622,
      "logits/rejected": -2.469642400741577,
      "logps/chosen": -260.82843017578125,
      "logps/rejected": -299.21343994140625,
      "loss": 0.0115,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.7311785221099854,
      "rewards/margins": 8.269608497619629,
      "rewards/rejected": -10.000787734985352,
      "step": 4410
    },
    {
      "epoch": 2.28,
      "learning_rate": 1.3300822336966917e-07,
      "logits/chosen": -2.5285234451293945,
      "logits/rejected": -2.3487613201141357,
      "logps/chosen": -334.66229248046875,
      "logps/rejected": -329.3540954589844,
      "loss": 0.0094,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.163953959941864,
      "rewards/margins": 9.816844940185547,
      "rewards/rejected": -9.652891159057617,
      "step": 4420
    },
    {
      "epoch": 2.29,
      "learning_rate": 1.3205201759418626e-07,
      "logits/chosen": -2.400176525115967,
      "logits/rejected": -2.173835277557373,
      "logps/chosen": -355.26043701171875,
      "logps/rejected": -349.78851318359375,
      "loss": 0.0099,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.45656710863113403,
      "rewards/margins": 10.023509979248047,
      "rewards/rejected": -9.56694221496582,
      "step": 4430
    },
    {
      "epoch": 2.29,
      "learning_rate": 1.3109581181870338e-07,
      "logits/chosen": -2.611816883087158,
      "logits/rejected": -2.6642374992370605,
      "logps/chosen": -294.43756103515625,
      "logps/rejected": -321.86846923828125,
      "loss": 0.0105,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.08868559449911118,
      "rewards/margins": 9.15350341796875,
      "rewards/rejected": -9.064818382263184,
      "step": 4440
    },
    {
      "epoch": 2.3,
      "learning_rate": 1.301396060432205e-07,
      "logits/chosen": -2.6899092197418213,
      "logits/rejected": -2.6209728717803955,
      "logps/chosen": -340.12030029296875,
      "logps/rejected": -341.85638427734375,
      "loss": 0.0079,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5528199672698975,
      "rewards/margins": 10.257894515991211,
      "rewards/rejected": -10.810712814331055,
      "step": 4450
    },
    {
      "epoch": 2.3,
      "learning_rate": 1.291834002677376e-07,
      "logits/chosen": -2.5746819972991943,
      "logits/rejected": -2.4712207317352295,
      "logps/chosen": -340.21661376953125,
      "logps/rejected": -348.29376220703125,
      "loss": 0.0111,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.839795470237732,
      "rewards/margins": 9.294793128967285,
      "rewards/rejected": -11.134590148925781,
      "step": 4460
    },
    {
      "epoch": 2.31,
      "learning_rate": 1.2822719449225472e-07,
      "logits/chosen": -2.4497411251068115,
      "logits/rejected": -2.6023406982421875,
      "logps/chosen": -258.5740966796875,
      "logps/rejected": -322.1835021972656,
      "loss": 0.0067,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4901916980743408,
      "rewards/margins": 8.80390739440918,
      "rewards/rejected": -10.294098854064941,
      "step": 4470
    },
    {
      "epoch": 2.31,
      "learning_rate": 1.2727098871677184e-07,
      "logits/chosen": -2.679898262023926,
      "logits/rejected": -2.6797006130218506,
      "logps/chosen": -358.4029235839844,
      "logps/rejected": -349.04119873046875,
      "loss": 0.004,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.31357401609420776,
      "rewards/margins": 9.342456817626953,
      "rewards/rejected": -9.656030654907227,
      "step": 4480
    },
    {
      "epoch": 2.32,
      "learning_rate": 1.2631478294128898e-07,
      "logits/chosen": -2.6513264179229736,
      "logits/rejected": -2.6451632976531982,
      "logps/chosen": -398.11871337890625,
      "logps/rejected": -359.9664611816406,
      "loss": 0.0102,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.07513128221035004,
      "rewards/margins": 10.039201736450195,
      "rewards/rejected": -9.964070320129395,
      "step": 4490
    },
    {
      "epoch": 2.32,
      "learning_rate": 1.253585771658061e-07,
      "logits/chosen": -2.587759017944336,
      "logits/rejected": -2.633078098297119,
      "logps/chosen": -251.6234588623047,
      "logps/rejected": -377.10443115234375,
      "loss": 0.0197,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.1120997667312622,
      "rewards/margins": 9.92921257019043,
      "rewards/rejected": -11.041314125061035,
      "step": 4500
    },
    {
      "epoch": 2.32,
      "eval_logits/chosen": -2.4542932510375977,
      "eval_logits/rejected": -2.411810874938965,
      "eval_logps/chosen": -291.1250305175781,
      "eval_logps/rejected": -329.98406982421875,
      "eval_loss": 0.7013015151023865,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -3.688992738723755,
      "eval_rewards/margins": 3.612422466278076,
      "eval_rewards/rejected": -7.301414966583252,
      "eval_runtime": 56.7399,
      "eval_samples_per_second": 17.624,
      "eval_steps_per_second": 0.282,
      "step": 4500
    },
    {
      "epoch": 2.33,
      "learning_rate": 1.2440237139032319e-07,
      "logits/chosen": -2.7155184745788574,
      "logits/rejected": -2.7012360095977783,
      "logps/chosen": -270.6969909667969,
      "logps/rejected": -277.15362548828125,
      "loss": 0.0102,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.8242677450180054,
      "rewards/margins": 10.182249069213867,
      "rewards/rejected": -12.006516456604004,
      "step": 4510
    },
    {
      "epoch": 2.33,
      "learning_rate": 1.234461656148403e-07,
      "logits/chosen": -2.7778592109680176,
      "logits/rejected": -2.6845195293426514,
      "logps/chosen": -406.66497802734375,
      "logps/rejected": -398.89044189453125,
      "loss": 0.0065,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.5758999586105347,
      "rewards/margins": 11.570829391479492,
      "rewards/rejected": -13.146730422973633,
      "step": 4520
    },
    {
      "epoch": 2.34,
      "learning_rate": 1.2248995983935742e-07,
      "logits/chosen": -2.7265734672546387,
      "logits/rejected": -2.6226305961608887,
      "logps/chosen": -284.33843994140625,
      "logps/rejected": -360.93121337890625,
      "loss": 0.0053,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6043723821640015,
      "rewards/margins": 10.222024917602539,
      "rewards/rejected": -10.826397895812988,
      "step": 4530
    },
    {
      "epoch": 2.34,
      "learning_rate": 1.2153375406387456e-07,
      "logits/chosen": -2.724083185195923,
      "logits/rejected": -2.75142765045166,
      "logps/chosen": -355.35504150390625,
      "logps/rejected": -472.2686462402344,
      "loss": 0.008,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3634461164474487,
      "rewards/margins": 11.717732429504395,
      "rewards/rejected": -13.081178665161133,
      "step": 4540
    },
    {
      "epoch": 2.35,
      "learning_rate": 1.2057754828839165e-07,
      "logits/chosen": -2.666905641555786,
      "logits/rejected": -2.737536907196045,
      "logps/chosen": -310.6121520996094,
      "logps/rejected": -350.0155029296875,
      "loss": 0.0089,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.12724515795707703,
      "rewards/margins": 9.271829605102539,
      "rewards/rejected": -9.39907455444336,
      "step": 4550
    },
    {
      "epoch": 2.35,
      "learning_rate": 1.1962134251290876e-07,
      "logits/chosen": -2.6463513374328613,
      "logits/rejected": -2.6242516040802,
      "logps/chosen": -268.8026123046875,
      "logps/rejected": -253.2088623046875,
      "loss": 0.0123,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.7786948680877686,
      "rewards/margins": 8.877888679504395,
      "rewards/rejected": -10.656583786010742,
      "step": 4560
    },
    {
      "epoch": 2.36,
      "learning_rate": 1.1866513673742588e-07,
      "logits/chosen": -2.6526236534118652,
      "logits/rejected": -2.5933640003204346,
      "logps/chosen": -244.880615234375,
      "logps/rejected": -330.068603515625,
      "loss": 0.0185,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4325166940689087,
      "rewards/margins": 8.305582046508789,
      "rewards/rejected": -9.73809814453125,
      "step": 4570
    },
    {
      "epoch": 2.36,
      "learning_rate": 1.1770893096194301e-07,
      "logits/chosen": -2.6464786529541016,
      "logits/rejected": -2.621084451675415,
      "logps/chosen": -358.1322326660156,
      "logps/rejected": -398.2645568847656,
      "loss": 0.0102,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.9040740728378296,
      "rewards/margins": 10.22703742980957,
      "rewards/rejected": -12.131113052368164,
      "step": 4580
    },
    {
      "epoch": 2.37,
      "learning_rate": 1.1675272518646012e-07,
      "logits/chosen": -2.704784631729126,
      "logits/rejected": -2.6682817935943604,
      "logps/chosen": -297.62274169921875,
      "logps/rejected": -330.6324462890625,
      "loss": 0.0272,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.19843515753746033,
      "rewards/margins": 9.420347213745117,
      "rewards/rejected": -9.618782997131348,
      "step": 4590
    },
    {
      "epoch": 2.37,
      "learning_rate": 1.1579651941097724e-07,
      "logits/chosen": -2.6055915355682373,
      "logits/rejected": -2.6153995990753174,
      "logps/chosen": -305.62933349609375,
      "logps/rejected": -291.2359924316406,
      "loss": 0.0182,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.7859185934066772,
      "rewards/margins": 8.813383102416992,
      "rewards/rejected": -10.599302291870117,
      "step": 4600
    },
    {
      "epoch": 2.37,
      "eval_logits/chosen": -2.4565374851226807,
      "eval_logits/rejected": -2.416307210922241,
      "eval_logps/chosen": -293.22906494140625,
      "eval_logps/rejected": -332.3355712890625,
      "eval_loss": 0.7476168870925903,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -3.8993959426879883,
      "eval_rewards/margins": 3.637169361114502,
      "eval_rewards/rejected": -7.536564826965332,
      "eval_runtime": 57.2122,
      "eval_samples_per_second": 17.479,
      "eval_steps_per_second": 0.28,
      "step": 4600
    },
    {
      "epoch": 2.38,
      "learning_rate": 1.1484031363549436e-07,
      "logits/chosen": -2.5126757621765137,
      "logits/rejected": -2.449023962020874,
      "logps/chosen": -327.66717529296875,
      "logps/rejected": -361.0265808105469,
      "loss": 0.0268,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.0840609073638916,
      "rewards/margins": 10.741630554199219,
      "rewards/rejected": -11.825691223144531,
      "step": 4610
    },
    {
      "epoch": 2.39,
      "learning_rate": 1.1388410786001147e-07,
      "logits/chosen": -2.6590983867645264,
      "logits/rejected": -2.688147783279419,
      "logps/chosen": -304.8904113769531,
      "logps/rejected": -383.8213195800781,
      "loss": 0.0162,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.8201377391815186,
      "rewards/margins": 9.453073501586914,
      "rewards/rejected": -11.273211479187012,
      "step": 4620
    },
    {
      "epoch": 2.39,
      "learning_rate": 1.1292790208452859e-07,
      "logits/chosen": -2.6834404468536377,
      "logits/rejected": -2.6824703216552734,
      "logps/chosen": -271.0035400390625,
      "logps/rejected": -379.20989990234375,
      "loss": 0.0132,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0902073383331299,
      "rewards/margins": 11.127284049987793,
      "rewards/rejected": -12.21749210357666,
      "step": 4630
    },
    {
      "epoch": 2.4,
      "learning_rate": 1.119716963090457e-07,
      "logits/chosen": -2.3537399768829346,
      "logits/rejected": -2.4233551025390625,
      "logps/chosen": -216.2086944580078,
      "logps/rejected": -297.00640869140625,
      "loss": 0.0146,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.2917330265045166,
      "rewards/margins": 7.949918270111084,
      "rewards/rejected": -10.24165153503418,
      "step": 4640
    },
    {
      "epoch": 2.4,
      "learning_rate": 1.1101549053356282e-07,
      "logits/chosen": -2.7646780014038086,
      "logits/rejected": -2.6880381107330322,
      "logps/chosen": -306.4629821777344,
      "logps/rejected": -336.5583190917969,
      "loss": 0.0227,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0529628992080688,
      "rewards/margins": 8.59121036529541,
      "rewards/rejected": -9.644172668457031,
      "step": 4650
    },
    {
      "epoch": 2.41,
      "learning_rate": 1.1005928475807993e-07,
      "logits/chosen": -2.550281286239624,
      "logits/rejected": -2.499551296234131,
      "logps/chosen": -284.04730224609375,
      "logps/rejected": -312.99896240234375,
      "loss": 0.0107,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.5507326126098633,
      "rewards/margins": 9.462206840515137,
      "rewards/rejected": -11.012939453125,
      "step": 4660
    },
    {
      "epoch": 2.41,
      "learning_rate": 1.0910307898259705e-07,
      "logits/chosen": -2.3352179527282715,
      "logits/rejected": -2.438673973083496,
      "logps/chosen": -236.6370849609375,
      "logps/rejected": -284.3169250488281,
      "loss": 0.0135,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.611262559890747,
      "rewards/margins": 8.59797477722168,
      "rewards/rejected": -10.209238052368164,
      "step": 4670
    },
    {
      "epoch": 2.42,
      "learning_rate": 1.0814687320711418e-07,
      "logits/chosen": -2.474139928817749,
      "logits/rejected": -2.377544641494751,
      "logps/chosen": -238.1358184814453,
      "logps/rejected": -414.88720703125,
      "loss": 0.0087,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9006067514419556,
      "rewards/margins": 9.972890853881836,
      "rewards/rejected": -10.873498916625977,
      "step": 4680
    },
    {
      "epoch": 2.42,
      "learning_rate": 1.0719066743163128e-07,
      "logits/chosen": -2.493590831756592,
      "logits/rejected": -2.6044669151306152,
      "logps/chosen": -323.1622009277344,
      "logps/rejected": -323.79510498046875,
      "loss": 0.0178,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.587964415550232,
      "rewards/margins": 9.504448890686035,
      "rewards/rejected": -11.092413902282715,
      "step": 4690
    },
    {
      "epoch": 2.43,
      "learning_rate": 1.062344616561484e-07,
      "logits/chosen": -2.638388156890869,
      "logits/rejected": -2.634883403778076,
      "logps/chosen": -368.1080627441406,
      "logps/rejected": -507.3169860839844,
      "loss": 0.0125,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.11677348613739014,
      "rewards/margins": 13.523852348327637,
      "rewards/rejected": -13.640626907348633,
      "step": 4700
    },
    {
      "epoch": 2.43,
      "eval_logits/chosen": -2.4100139141082764,
      "eval_logits/rejected": -2.369899272918701,
      "eval_logps/chosen": -294.79522705078125,
      "eval_logps/rejected": -332.7344665527344,
      "eval_loss": 0.7198817133903503,
      "eval_rewards/accuracies": 0.84375,
      "eval_rewards/chosen": -4.056015968322754,
      "eval_rewards/margins": 3.5204358100891113,
      "eval_rewards/rejected": -7.576451778411865,
      "eval_runtime": 55.0706,
      "eval_samples_per_second": 18.158,
      "eval_steps_per_second": 0.291,
      "step": 4700
    },
    {
      "epoch": 2.43,
      "learning_rate": 1.0527825588066551e-07,
      "logits/chosen": -2.615658760070801,
      "logits/rejected": -2.48193097114563,
      "logps/chosen": -350.5819091796875,
      "logps/rejected": -332.139892578125,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4044158458709717,
      "rewards/margins": 10.358014106750488,
      "rewards/rejected": -11.762430191040039,
      "step": 4710
    },
    {
      "epoch": 2.44,
      "learning_rate": 1.0432205010518264e-07,
      "logits/chosen": -2.6633851528167725,
      "logits/rejected": -2.6755900382995605,
      "logps/chosen": -244.67703247070312,
      "logps/rejected": -381.3924865722656,
      "loss": 0.0063,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5906885266304016,
      "rewards/margins": 11.672990798950195,
      "rewards/rejected": -12.263678550720215,
      "step": 4720
    },
    {
      "epoch": 2.44,
      "learning_rate": 1.0336584432969974e-07,
      "logits/chosen": -2.4058127403259277,
      "logits/rejected": -2.398548126220703,
      "logps/chosen": -268.20660400390625,
      "logps/rejected": -309.49078369140625,
      "loss": 0.0141,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": 0.11153459548950195,
      "rewards/margins": 9.980080604553223,
      "rewards/rejected": -9.868546485900879,
      "step": 4730
    },
    {
      "epoch": 2.45,
      "learning_rate": 1.0240963855421686e-07,
      "logits/chosen": -2.542297601699829,
      "logits/rejected": -2.5843400955200195,
      "logps/chosen": -385.5765686035156,
      "logps/rejected": -344.6966552734375,
      "loss": 0.0071,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.7057178020477295,
      "rewards/margins": 9.097609519958496,
      "rewards/rejected": -10.803327560424805,
      "step": 4740
    },
    {
      "epoch": 2.45,
      "learning_rate": 1.0145343277873399e-07,
      "logits/chosen": -2.505624771118164,
      "logits/rejected": -2.4930660724639893,
      "logps/chosen": -330.05987548828125,
      "logps/rejected": -383.5957336425781,
      "loss": 0.0139,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.8719791173934937,
      "rewards/margins": 10.555585861206055,
      "rewards/rejected": -11.427566528320312,
      "step": 4750
    },
    {
      "epoch": 2.46,
      "learning_rate": 1.004972270032511e-07,
      "logits/chosen": -2.2423624992370605,
      "logits/rejected": -2.250560760498047,
      "logps/chosen": -287.89349365234375,
      "logps/rejected": -298.4164123535156,
      "loss": 0.0167,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.064730167388916,
      "rewards/margins": 7.943607330322266,
      "rewards/rejected": -9.00833797454834,
      "step": 4760
    },
    {
      "epoch": 2.46,
      "learning_rate": 9.95410212277682e-08,
      "logits/chosen": -2.6729438304901123,
      "logits/rejected": -2.5839288234710693,
      "logps/chosen": -304.6081237792969,
      "logps/rejected": -281.4034423828125,
      "loss": 0.0149,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.613656759262085,
      "rewards/margins": 8.870094299316406,
      "rewards/rejected": -9.483750343322754,
      "step": 4770
    },
    {
      "epoch": 2.47,
      "learning_rate": 9.858481545228532e-08,
      "logits/chosen": -2.431548833847046,
      "logits/rejected": -2.5211846828460693,
      "logps/chosen": -185.5460205078125,
      "logps/rejected": -266.6904602050781,
      "loss": 0.0164,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.3175272941589355,
      "rewards/margins": 8.721592903137207,
      "rewards/rejected": -10.039118766784668,
      "step": 4780
    },
    {
      "epoch": 2.47,
      "learning_rate": 9.762860967680245e-08,
      "logits/chosen": -2.5315418243408203,
      "logits/rejected": -2.6745972633361816,
      "logps/chosen": -215.60311889648438,
      "logps/rejected": -252.6163330078125,
      "loss": 0.0082,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.5650713443756104,
      "rewards/margins": 8.301115036010742,
      "rewards/rejected": -9.866186141967773,
      "step": 4790
    },
    {
      "epoch": 2.48,
      "learning_rate": 9.667240390131957e-08,
      "logits/chosen": -2.6866960525512695,
      "logits/rejected": -2.6582419872283936,
      "logps/chosen": -263.9376220703125,
      "logps/rejected": -329.9527587890625,
      "loss": 0.0082,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7252375483512878,
      "rewards/margins": 12.293913841247559,
      "rewards/rejected": -13.01915168762207,
      "step": 4800
    },
    {
      "epoch": 2.48,
      "eval_logits/chosen": -2.430349826812744,
      "eval_logits/rejected": -2.3925321102142334,
      "eval_logps/chosen": -290.84771728515625,
      "eval_logps/rejected": -328.32550048828125,
      "eval_loss": 0.7047879695892334,
      "eval_rewards/accuracies": 0.875,
      "eval_rewards/chosen": -3.6612637042999268,
      "eval_rewards/margins": 3.474294662475586,
      "eval_rewards/rejected": -7.135558605194092,
      "eval_runtime": 56.5008,
      "eval_samples_per_second": 17.699,
      "eval_steps_per_second": 0.283,
      "step": 4800
    },
    {
      "epoch": 2.48,
      "learning_rate": 9.571619812583667e-08,
      "logits/chosen": -2.3522887229919434,
      "logits/rejected": -2.5020272731781006,
      "logps/chosen": -404.24993896484375,
      "logps/rejected": -365.1546936035156,
      "loss": 0.0103,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.5152179598808289,
      "rewards/margins": 10.364774703979492,
      "rewards/rejected": -10.879993438720703,
      "step": 4810
    },
    {
      "epoch": 2.49,
      "learning_rate": 9.47599923503538e-08,
      "logits/chosen": -2.634892225265503,
      "logits/rejected": -2.660521984100342,
      "logps/chosen": -330.85308837890625,
      "logps/rejected": -385.0195617675781,
      "loss": 0.0189,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.17577147483825684,
      "rewards/margins": 10.900343894958496,
      "rewards/rejected": -11.076115608215332,
      "step": 4820
    },
    {
      "epoch": 2.49,
      "learning_rate": 9.380378657487091e-08,
      "logits/chosen": -2.514988422393799,
      "logits/rejected": -2.510554790496826,
      "logps/chosen": -250.59939575195312,
      "logps/rejected": -327.1246643066406,
      "loss": 0.0152,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6027127504348755,
      "rewards/margins": 11.022318840026855,
      "rewards/rejected": -11.625032424926758,
      "step": 4830
    },
    {
      "epoch": 2.5,
      "learning_rate": 9.284758079938803e-08,
      "logits/chosen": -2.7160019874572754,
      "logits/rejected": -2.725782632827759,
      "logps/chosen": -366.26788330078125,
      "logps/rejected": -313.48223876953125,
      "loss": 0.0077,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3688530921936035,
      "rewards/margins": 8.293670654296875,
      "rewards/rejected": -9.66252326965332,
      "step": 4840
    },
    {
      "epoch": 2.5,
      "learning_rate": 9.189137502390513e-08,
      "logits/chosen": -2.5986154079437256,
      "logits/rejected": -2.60760760307312,
      "logps/chosen": -338.04925537109375,
      "logps/rejected": -425.7908630371094,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.2331068515777588,
      "rewards/margins": 9.989707946777344,
      "rewards/rejected": -11.222814559936523,
      "step": 4850
    },
    {
      "epoch": 2.51,
      "learning_rate": 9.093516924842226e-08,
      "logits/chosen": -2.5680298805236816,
      "logits/rejected": -2.603311061859131,
      "logps/chosen": -270.52349853515625,
      "logps/rejected": -418.3185119628906,
      "loss": 0.0155,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3546164631843567,
      "rewards/margins": 11.326202392578125,
      "rewards/rejected": -11.680818557739258,
      "step": 4860
    },
    {
      "epoch": 2.51,
      "learning_rate": 8.997896347293938e-08,
      "logits/chosen": -2.529101610183716,
      "logits/rejected": -2.4874515533447266,
      "logps/chosen": -205.5690460205078,
      "logps/rejected": -333.98065185546875,
      "loss": 0.0151,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0936403274536133,
      "rewards/margins": 9.565814018249512,
      "rewards/rejected": -10.659454345703125,
      "step": 4870
    },
    {
      "epoch": 2.52,
      "learning_rate": 8.902275769745648e-08,
      "logits/chosen": -2.4107840061187744,
      "logits/rejected": -2.529804229736328,
      "logps/chosen": -229.46145629882812,
      "logps/rejected": -267.4582214355469,
      "loss": 0.0123,
      "rewards/accuracies": 0.8999999761581421,
      "rewards/chosen": -1.5835365056991577,
      "rewards/margins": 7.870436668395996,
      "rewards/rejected": -9.453973770141602,
      "step": 4880
    },
    {
      "epoch": 2.52,
      "learning_rate": 8.806655192197361e-08,
      "logits/chosen": -2.4289088249206543,
      "logits/rejected": -2.549330949783325,
      "logps/chosen": -171.3069610595703,
      "logps/rejected": -321.93853759765625,
      "loss": 0.0065,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -2.041638135910034,
      "rewards/margins": 10.020352363586426,
      "rewards/rejected": -12.061990737915039,
      "step": 4890
    },
    {
      "epoch": 2.53,
      "learning_rate": 8.711034614649072e-08,
      "logits/chosen": -2.7017006874084473,
      "logits/rejected": -2.7009201049804688,
      "logps/chosen": -279.64984130859375,
      "logps/rejected": -352.21160888671875,
      "loss": 0.0118,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.1117719411849976,
      "rewards/margins": 10.062509536743164,
      "rewards/rejected": -11.17428207397461,
      "step": 4900
    },
    {
      "epoch": 2.53,
      "eval_logits/chosen": -2.4046812057495117,
      "eval_logits/rejected": -2.36327862739563,
      "eval_logps/chosen": -292.14312744140625,
      "eval_logps/rejected": -330.12237548828125,
      "eval_loss": 0.6975539326667786,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -3.7908036708831787,
      "eval_rewards/margins": 3.524440288543701,
      "eval_rewards/rejected": -7.315243721008301,
      "eval_runtime": 53.2942,
      "eval_samples_per_second": 18.764,
      "eval_steps_per_second": 0.3,
      "step": 4900
    },
    {
      "epoch": 2.53,
      "learning_rate": 8.615414037100784e-08,
      "logits/chosen": -2.5984580516815186,
      "logits/rejected": -2.746319532394409,
      "logps/chosen": -321.95367431640625,
      "logps/rejected": -298.1436767578125,
      "loss": 0.0084,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.020658016204834,
      "rewards/margins": 8.369918823242188,
      "rewards/rejected": -10.390576362609863,
      "step": 4910
    },
    {
      "epoch": 2.54,
      "learning_rate": 8.519793459552494e-08,
      "logits/chosen": -2.359086513519287,
      "logits/rejected": -2.3888332843780518,
      "logps/chosen": -395.9248962402344,
      "logps/rejected": -374.02069091796875,
      "loss": 0.014,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.04106631129980087,
      "rewards/margins": 11.742452621459961,
      "rewards/rejected": -11.783517837524414,
      "step": 4920
    },
    {
      "epoch": 2.55,
      "learning_rate": 8.424172882004207e-08,
      "logits/chosen": -2.661177158355713,
      "logits/rejected": -2.6514670848846436,
      "logps/chosen": -387.62054443359375,
      "logps/rejected": -339.0218505859375,
      "loss": 0.0263,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.0007514476892538369,
      "rewards/margins": 9.993762016296387,
      "rewards/rejected": -9.993009567260742,
      "step": 4930
    },
    {
      "epoch": 2.55,
      "learning_rate": 8.328552304455919e-08,
      "logits/chosen": -2.335365056991577,
      "logits/rejected": -2.317937135696411,
      "logps/chosen": -231.7373504638672,
      "logps/rejected": -296.01287841796875,
      "loss": 0.0162,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7403205633163452,
      "rewards/margins": 9.786886215209961,
      "rewards/rejected": -10.527207374572754,
      "step": 4940
    },
    {
      "epoch": 2.56,
      "learning_rate": 8.23293172690763e-08,
      "logits/chosen": -2.5740818977355957,
      "logits/rejected": -2.612046718597412,
      "logps/chosen": -265.88116455078125,
      "logps/rejected": -311.5575256347656,
      "loss": 0.0043,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.1604253053665161,
      "rewards/margins": 10.83531665802002,
      "rewards/rejected": -11.995742797851562,
      "step": 4950
    },
    {
      "epoch": 2.56,
      "learning_rate": 8.137311149359343e-08,
      "logits/chosen": -2.7012178897857666,
      "logits/rejected": -2.6206467151641846,
      "logps/chosen": -434.08843994140625,
      "logps/rejected": -364.0971984863281,
      "loss": 0.0085,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.09630658477544785,
      "rewards/margins": 11.247058868408203,
      "rewards/rejected": -11.343365669250488,
      "step": 4960
    },
    {
      "epoch": 2.57,
      "learning_rate": 8.041690571811053e-08,
      "logits/chosen": -2.614105463027954,
      "logits/rejected": -2.5202865600585938,
      "logps/chosen": -219.88876342773438,
      "logps/rejected": -269.26568603515625,
      "loss": 0.0173,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.203838348388672,
      "rewards/margins": 8.655978202819824,
      "rewards/rejected": -10.859817504882812,
      "step": 4970
    },
    {
      "epoch": 2.57,
      "learning_rate": 7.946069994262765e-08,
      "logits/chosen": -2.546452045440674,
      "logits/rejected": -2.6220192909240723,
      "logps/chosen": -294.5769958496094,
      "logps/rejected": -284.33343505859375,
      "loss": 0.009,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0741980075836182,
      "rewards/margins": 9.485953330993652,
      "rewards/rejected": -10.560152053833008,
      "step": 4980
    },
    {
      "epoch": 2.58,
      "learning_rate": 7.850449416714476e-08,
      "logits/chosen": -2.7545557022094727,
      "logits/rejected": -2.676429033279419,
      "logps/chosen": -480.96600341796875,
      "logps/rejected": -401.0008850097656,
      "loss": 0.0081,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3216051459312439,
      "rewards/margins": 9.37825870513916,
      "rewards/rejected": -9.699864387512207,
      "step": 4990
    },
    {
      "epoch": 2.58,
      "learning_rate": 7.754828839166188e-08,
      "logits/chosen": -2.48799467086792,
      "logits/rejected": -2.4741270542144775,
      "logps/chosen": -251.6031036376953,
      "logps/rejected": -321.9014587402344,
      "loss": 0.0118,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3492779731750488,
      "rewards/margins": 8.896702766418457,
      "rewards/rejected": -10.245981216430664,
      "step": 5000
    },
    {
      "epoch": 2.58,
      "eval_logits/chosen": -2.4194068908691406,
      "eval_logits/rejected": -2.3763530254364014,
      "eval_logps/chosen": -293.284423828125,
      "eval_logps/rejected": -332.5270690917969,
      "eval_loss": 0.7198395133018494,
      "eval_rewards/accuracies": 0.828125,
      "eval_rewards/chosen": -3.9049317836761475,
      "eval_rewards/margins": 3.650782823562622,
      "eval_rewards/rejected": -7.555714130401611,
      "eval_runtime": 56.8998,
      "eval_samples_per_second": 17.575,
      "eval_steps_per_second": 0.281,
      "step": 5000
    },
    {
      "epoch": 2.59,
      "learning_rate": 7.6592082616179e-08,
      "logits/chosen": -2.4661271572113037,
      "logits/rejected": -2.477613687515259,
      "logps/chosen": -245.18594360351562,
      "logps/rejected": -335.5259094238281,
      "loss": 0.0138,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.542055368423462,
      "rewards/margins": 10.06078052520752,
      "rewards/rejected": -11.602836608886719,
      "step": 5010
    },
    {
      "epoch": 2.59,
      "learning_rate": 7.563587684069611e-08,
      "logits/chosen": -2.5083346366882324,
      "logits/rejected": -2.643256187438965,
      "logps/chosen": -207.7921600341797,
      "logps/rejected": -385.1307678222656,
      "loss": 0.0049,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6641393899917603,
      "rewards/margins": 10.65031909942627,
      "rewards/rejected": -12.314460754394531,
      "step": 5020
    },
    {
      "epoch": 2.6,
      "learning_rate": 7.467967106521324e-08,
      "logits/chosen": -2.588287830352783,
      "logits/rejected": -2.5413451194763184,
      "logps/chosen": -273.2277526855469,
      "logps/rejected": -238.3046875,
      "loss": 0.0103,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6997830867767334,
      "rewards/margins": 7.600827217102051,
      "rewards/rejected": -8.300610542297363,
      "step": 5030
    },
    {
      "epoch": 2.6,
      "learning_rate": 7.372346528973034e-08,
      "logits/chosen": -2.5987842082977295,
      "logits/rejected": -2.5648391246795654,
      "logps/chosen": -217.76416015625,
      "logps/rejected": -320.9278259277344,
      "loss": 0.0087,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.9506279230117798,
      "rewards/margins": 10.49673080444336,
      "rewards/rejected": -12.447359085083008,
      "step": 5040
    },
    {
      "epoch": 2.61,
      "learning_rate": 7.276725951424746e-08,
      "logits/chosen": -2.5334415435791016,
      "logits/rejected": -2.48858642578125,
      "logps/chosen": -171.40257263183594,
      "logps/rejected": -390.48590087890625,
      "loss": 0.0139,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.9724035263061523,
      "rewards/margins": 8.248844146728516,
      "rewards/rejected": -10.2212495803833,
      "step": 5050
    },
    {
      "epoch": 2.61,
      "learning_rate": 7.181105373876457e-08,
      "logits/chosen": -2.483840227127075,
      "logits/rejected": -2.437764883041382,
      "logps/chosen": -204.07522583007812,
      "logps/rejected": -299.15594482421875,
      "loss": 0.0111,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3759775161743164,
      "rewards/margins": 9.727631568908691,
      "rewards/rejected": -11.103609085083008,
      "step": 5060
    },
    {
      "epoch": 2.62,
      "learning_rate": 7.08548479632817e-08,
      "logits/chosen": -2.751817226409912,
      "logits/rejected": -2.6693196296691895,
      "logps/chosen": -372.95458984375,
      "logps/rejected": -369.3866271972656,
      "loss": 0.0131,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.938228964805603,
      "rewards/margins": 9.311058044433594,
      "rewards/rejected": -10.249287605285645,
      "step": 5070
    },
    {
      "epoch": 2.62,
      "learning_rate": 6.98986421877988e-08,
      "logits/chosen": -2.541592836380005,
      "logits/rejected": -2.455427646636963,
      "logps/chosen": -295.2919006347656,
      "logps/rejected": -412.5565490722656,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.2343528270721436,
      "rewards/margins": 10.338408470153809,
      "rewards/rejected": -11.572762489318848,
      "step": 5080
    },
    {
      "epoch": 2.63,
      "learning_rate": 6.894243641231592e-08,
      "logits/chosen": -2.578338623046875,
      "logits/rejected": -2.542959690093994,
      "logps/chosen": -227.2720947265625,
      "logps/rejected": -329.40032958984375,
      "loss": 0.0778,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6857062578201294,
      "rewards/margins": 11.191483497619629,
      "rewards/rejected": -11.877190589904785,
      "step": 5090
    },
    {
      "epoch": 2.63,
      "learning_rate": 6.798623063683305e-08,
      "logits/chosen": -2.287254810333252,
      "logits/rejected": -2.432054281234741,
      "logps/chosen": -312.0555114746094,
      "logps/rejected": -452.99169921875,
      "loss": 0.006,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9427648782730103,
      "rewards/margins": 15.484460830688477,
      "rewards/rejected": -16.42722511291504,
      "step": 5100
    },
    {
      "epoch": 2.63,
      "eval_logits/chosen": -2.3859879970550537,
      "eval_logits/rejected": -2.340737819671631,
      "eval_logps/chosen": -296.35302734375,
      "eval_logps/rejected": -336.11944580078125,
      "eval_loss": 0.7505870461463928,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -4.211794376373291,
      "eval_rewards/margins": 3.703155040740967,
      "eval_rewards/rejected": -7.914949893951416,
      "eval_runtime": 56.2566,
      "eval_samples_per_second": 17.776,
      "eval_steps_per_second": 0.284,
      "step": 5100
    },
    {
      "epoch": 2.64,
      "learning_rate": 6.703002486135017e-08,
      "logits/chosen": -2.3773114681243896,
      "logits/rejected": -2.5287060737609863,
      "logps/chosen": -236.22640991210938,
      "logps/rejected": -360.97784423828125,
      "loss": 0.0178,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.9979360699653625,
      "rewards/margins": 10.704690933227539,
      "rewards/rejected": -11.702627182006836,
      "step": 5110
    },
    {
      "epoch": 2.64,
      "learning_rate": 6.607381908586727e-08,
      "logits/chosen": -2.642033338546753,
      "logits/rejected": -2.6108345985412598,
      "logps/chosen": -317.5076599121094,
      "logps/rejected": -348.7528076171875,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6177361011505127,
      "rewards/margins": 9.611312866210938,
      "rewards/rejected": -11.229048728942871,
      "step": 5120
    },
    {
      "epoch": 2.65,
      "learning_rate": 6.511761331038438e-08,
      "logits/chosen": -2.6155383586883545,
      "logits/rejected": -2.6100358963012695,
      "logps/chosen": -281.2548522949219,
      "logps/rejected": -298.05865478515625,
      "loss": 0.0147,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.588085651397705,
      "rewards/margins": 7.020742893218994,
      "rewards/rejected": -9.608829498291016,
      "step": 5130
    },
    {
      "epoch": 2.65,
      "learning_rate": 6.416140753490151e-08,
      "logits/chosen": -2.627002239227295,
      "logits/rejected": -2.6328094005584717,
      "logps/chosen": -421.49774169921875,
      "logps/rejected": -432.20098876953125,
      "loss": 0.0179,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.4822900295257568,
      "rewards/margins": 8.786565780639648,
      "rewards/rejected": -10.268855094909668,
      "step": 5140
    },
    {
      "epoch": 2.66,
      "learning_rate": 6.320520175941863e-08,
      "logits/chosen": -2.4586381912231445,
      "logits/rejected": -2.452455997467041,
      "logps/chosen": -246.73715209960938,
      "logps/rejected": -327.2841491699219,
      "loss": 0.0172,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.41286563873291,
      "rewards/margins": 9.417495727539062,
      "rewards/rejected": -11.830362319946289,
      "step": 5150
    },
    {
      "epoch": 2.66,
      "learning_rate": 6.224899598393573e-08,
      "logits/chosen": -2.557018756866455,
      "logits/rejected": -2.4926464557647705,
      "logps/chosen": -285.82635498046875,
      "logps/rejected": -348.3973693847656,
      "loss": 0.0111,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4971519708633423,
      "rewards/margins": 9.434330940246582,
      "rewards/rejected": -10.931482315063477,
      "step": 5160
    },
    {
      "epoch": 2.67,
      "learning_rate": 6.129279020845286e-08,
      "logits/chosen": -2.4606575965881348,
      "logits/rejected": -2.5436136722564697,
      "logps/chosen": -265.47454833984375,
      "logps/rejected": -310.14862060546875,
      "loss": 0.0113,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.3885912597179413,
      "rewards/margins": 10.448331832885742,
      "rewards/rejected": -10.836923599243164,
      "step": 5170
    },
    {
      "epoch": 2.67,
      "learning_rate": 6.033658443296998e-08,
      "logits/chosen": -2.5347704887390137,
      "logits/rejected": -2.484384059906006,
      "logps/chosen": -266.8102111816406,
      "logps/rejected": -340.2280578613281,
      "loss": 0.0178,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.881771445274353,
      "rewards/margins": 11.114812850952148,
      "rewards/rejected": -11.99658489227295,
      "step": 5180
    },
    {
      "epoch": 2.68,
      "learning_rate": 5.9380378657487085e-08,
      "logits/chosen": -2.5079243183135986,
      "logits/rejected": -2.5110316276550293,
      "logps/chosen": -455.3853454589844,
      "logps/rejected": -375.2730407714844,
      "loss": 0.0062,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.6811244487762451,
      "rewards/margins": 11.579205513000488,
      "rewards/rejected": -12.26032829284668,
      "step": 5190
    },
    {
      "epoch": 2.68,
      "learning_rate": 5.842417288200421e-08,
      "logits/chosen": -2.665579080581665,
      "logits/rejected": -2.835705280303955,
      "logps/chosen": -388.7041320800781,
      "logps/rejected": -376.1544494628906,
      "loss": 0.0143,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7552551627159119,
      "rewards/margins": 9.90630054473877,
      "rewards/rejected": -10.6615571975708,
      "step": 5200
    },
    {
      "epoch": 2.68,
      "eval_logits/chosen": -2.394641160964966,
      "eval_logits/rejected": -2.350865125656128,
      "eval_logps/chosen": -296.6682434082031,
      "eval_logps/rejected": -336.7720642089844,
      "eval_loss": 0.7407526969909668,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -4.243312835693359,
      "eval_rewards/margins": 3.7369019985198975,
      "eval_rewards/rejected": -7.980215549468994,
      "eval_runtime": 55.9932,
      "eval_samples_per_second": 17.859,
      "eval_steps_per_second": 0.286,
      "step": 5200
    },
    {
      "epoch": 2.69,
      "learning_rate": 5.7467967106521317e-08,
      "logits/chosen": -2.518009901046753,
      "logits/rejected": -2.5615527629852295,
      "logps/chosen": -296.2488098144531,
      "logps/rejected": -408.9478454589844,
      "loss": 0.0042,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.9118080139160156,
      "rewards/margins": 10.68850326538086,
      "rewards/rejected": -12.600311279296875,
      "step": 5210
    },
    {
      "epoch": 2.69,
      "learning_rate": 5.651176133103844e-08,
      "logits/chosen": -2.740626096725464,
      "logits/rejected": -2.676818370819092,
      "logps/chosen": -306.84588623046875,
      "logps/rejected": -342.53240966796875,
      "loss": 0.0142,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.46114450693130493,
      "rewards/margins": 10.382904052734375,
      "rewards/rejected": -10.844049453735352,
      "step": 5220
    },
    {
      "epoch": 2.7,
      "learning_rate": 5.555555555555555e-08,
      "logits/chosen": -2.5409655570983887,
      "logits/rejected": -2.4781863689422607,
      "logps/chosen": -215.8829345703125,
      "logps/rejected": -301.06756591796875,
      "loss": 0.0098,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.1217892169952393,
      "rewards/margins": 8.91219711303711,
      "rewards/rejected": -10.033987045288086,
      "step": 5230
    },
    {
      "epoch": 2.71,
      "learning_rate": 5.459934978007267e-08,
      "logits/chosen": -2.6471657752990723,
      "logits/rejected": -2.611330509185791,
      "logps/chosen": -273.4901123046875,
      "logps/rejected": -403.7444763183594,
      "loss": 0.0046,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.45464539527893066,
      "rewards/margins": 11.401620864868164,
      "rewards/rejected": -11.856266021728516,
      "step": 5240
    },
    {
      "epoch": 2.71,
      "learning_rate": 5.3643144004589786e-08,
      "logits/chosen": -2.542269706726074,
      "logits/rejected": -2.433465003967285,
      "logps/chosen": -301.2662048339844,
      "logps/rejected": -399.2783203125,
      "loss": 0.0122,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.4464475214481354,
      "rewards/margins": 13.448400497436523,
      "rewards/rejected": -13.001953125,
      "step": 5250
    },
    {
      "epoch": 2.72,
      "learning_rate": 5.26869382291069e-08,
      "logits/chosen": -2.6752572059631348,
      "logits/rejected": -2.7158637046813965,
      "logps/chosen": -226.4488983154297,
      "logps/rejected": -335.8851623535156,
      "loss": 0.0119,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.019395578652620316,
      "rewards/margins": 10.634721755981445,
      "rewards/rejected": -10.654115676879883,
      "step": 5260
    },
    {
      "epoch": 2.72,
      "learning_rate": 5.173073245362402e-08,
      "logits/chosen": -2.265803337097168,
      "logits/rejected": -2.495293617248535,
      "logps/chosen": -273.8394470214844,
      "logps/rejected": -262.0378112792969,
      "loss": 0.0138,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.907080888748169,
      "rewards/margins": 9.230062484741211,
      "rewards/rejected": -11.1371431350708,
      "step": 5270
    },
    {
      "epoch": 2.73,
      "learning_rate": 5.077452667814113e-08,
      "logits/chosen": -2.645397186279297,
      "logits/rejected": -2.6353235244750977,
      "logps/chosen": -234.93240356445312,
      "logps/rejected": -313.4653015136719,
      "loss": 0.0084,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.619875192642212,
      "rewards/margins": 9.85165786743164,
      "rewards/rejected": -11.47153377532959,
      "step": 5280
    },
    {
      "epoch": 2.73,
      "learning_rate": 4.981832090265825e-08,
      "logits/chosen": -2.5697460174560547,
      "logits/rejected": -2.524587631225586,
      "logps/chosen": -278.901123046875,
      "logps/rejected": -400.72540283203125,
      "loss": 0.0122,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.3195740878582001,
      "rewards/margins": 12.423995018005371,
      "rewards/rejected": -12.104421615600586,
      "step": 5290
    },
    {
      "epoch": 2.74,
      "learning_rate": 4.8862115127175364e-08,
      "logits/chosen": -2.6613426208496094,
      "logits/rejected": -2.5382397174835205,
      "logps/chosen": -298.51617431640625,
      "logps/rejected": -405.8147277832031,
      "loss": 0.0057,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6868101358413696,
      "rewards/margins": 10.438592910766602,
      "rewards/rejected": -12.125402450561523,
      "step": 5300
    },
    {
      "epoch": 2.74,
      "eval_logits/chosen": -2.384242057800293,
      "eval_logits/rejected": -2.33884596824646,
      "eval_logps/chosen": -297.62750244140625,
      "eval_logps/rejected": -337.80126953125,
      "eval_loss": 0.7552159428596497,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -4.339241981506348,
      "eval_rewards/margins": 3.743894100189209,
      "eval_rewards/rejected": -8.083136558532715,
      "eval_runtime": 59.8742,
      "eval_samples_per_second": 16.702,
      "eval_steps_per_second": 0.267,
      "step": 5300
    },
    {
      "epoch": 2.74,
      "learning_rate": 4.790590935169248e-08,
      "logits/chosen": -2.6838698387145996,
      "logits/rejected": -2.574967384338379,
      "logps/chosen": -274.59368896484375,
      "logps/rejected": -469.4027404785156,
      "loss": 0.012,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.4363610744476318,
      "rewards/margins": 10.517416000366211,
      "rewards/rejected": -11.953778266906738,
      "step": 5310
    },
    {
      "epoch": 2.75,
      "learning_rate": 4.69497035762096e-08,
      "logits/chosen": -2.537161350250244,
      "logits/rejected": -2.4791531562805176,
      "logps/chosen": -344.87347412109375,
      "logps/rejected": -444.57366943359375,
      "loss": 0.0116,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.297786235809326,
      "rewards/margins": 12.291933059692383,
      "rewards/rejected": -14.589719772338867,
      "step": 5320
    },
    {
      "epoch": 2.75,
      "learning_rate": 4.599349780072671e-08,
      "logits/chosen": -2.5215706825256348,
      "logits/rejected": -2.408939838409424,
      "logps/chosen": -344.95184326171875,
      "logps/rejected": -272.84417724609375,
      "loss": 0.0134,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.2328124046325684,
      "rewards/margins": 9.55348014831543,
      "rewards/rejected": -11.78629207611084,
      "step": 5330
    },
    {
      "epoch": 2.76,
      "learning_rate": 4.5037292025243834e-08,
      "logits/chosen": -2.4096181392669678,
      "logits/rejected": -2.3585500717163086,
      "logps/chosen": -231.6038055419922,
      "logps/rejected": -414.8946838378906,
      "loss": 0.0113,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.199920892715454,
      "rewards/margins": 9.544143676757812,
      "rewards/rejected": -11.744064331054688,
      "step": 5340
    },
    {
      "epoch": 2.76,
      "learning_rate": 4.408108624976094e-08,
      "logits/chosen": -2.6306357383728027,
      "logits/rejected": -2.373485565185547,
      "logps/chosen": -273.1640625,
      "logps/rejected": -362.6429138183594,
      "loss": 0.0084,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7220970392227173,
      "rewards/margins": 11.861469268798828,
      "rewards/rejected": -12.583566665649414,
      "step": 5350
    },
    {
      "epoch": 2.77,
      "learning_rate": 4.3124880474278065e-08,
      "logits/chosen": -2.6821742057800293,
      "logits/rejected": -2.5935044288635254,
      "logps/chosen": -330.2795715332031,
      "logps/rejected": -295.5904541015625,
      "loss": 0.0196,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.4781021177768707,
      "rewards/margins": 9.99770450592041,
      "rewards/rejected": -10.475805282592773,
      "step": 5360
    },
    {
      "epoch": 2.77,
      "learning_rate": 4.2168674698795174e-08,
      "logits/chosen": -2.668886184692383,
      "logits/rejected": -2.7140769958496094,
      "logps/chosen": -188.55136108398438,
      "logps/rejected": -355.8598327636719,
      "loss": 0.0061,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.314338207244873,
      "rewards/margins": 8.853775978088379,
      "rewards/rejected": -11.168115615844727,
      "step": 5370
    },
    {
      "epoch": 2.78,
      "learning_rate": 4.1212468923312296e-08,
      "logits/chosen": -2.5291595458984375,
      "logits/rejected": -2.4308247566223145,
      "logps/chosen": -271.3199768066406,
      "logps/rejected": -382.0475158691406,
      "loss": 0.0167,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.8199418783187866,
      "rewards/margins": 9.165318489074707,
      "rewards/rejected": -10.985260009765625,
      "step": 5380
    },
    {
      "epoch": 2.78,
      "learning_rate": 4.025626314782941e-08,
      "logits/chosen": -2.578953266143799,
      "logits/rejected": -2.5158464908599854,
      "logps/chosen": -277.73052978515625,
      "logps/rejected": -347.6210632324219,
      "loss": 0.003,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.26607850193977356,
      "rewards/margins": 11.397039413452148,
      "rewards/rejected": -11.663119316101074,
      "step": 5390
    },
    {
      "epoch": 2.79,
      "learning_rate": 3.930005737234653e-08,
      "logits/chosen": -2.543391704559326,
      "logits/rejected": -2.6446430683135986,
      "logps/chosen": -216.94741821289062,
      "logps/rejected": -307.4268493652344,
      "loss": 0.0138,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3559612035751343,
      "rewards/margins": 9.72540283203125,
      "rewards/rejected": -11.0813627243042,
      "step": 5400
    },
    {
      "epoch": 2.79,
      "eval_logits/chosen": -2.3737339973449707,
      "eval_logits/rejected": -2.3286330699920654,
      "eval_logps/chosen": -296.6304016113281,
      "eval_logps/rejected": -336.73223876953125,
      "eval_loss": 0.7403773069381714,
      "eval_rewards/accuracies": 0.8125,
      "eval_rewards/chosen": -4.239532470703125,
      "eval_rewards/margins": 3.7366957664489746,
      "eval_rewards/rejected": -7.9762282371521,
      "eval_runtime": 58.906,
      "eval_samples_per_second": 16.976,
      "eval_steps_per_second": 0.272,
      "step": 5400
    },
    {
      "epoch": 2.79,
      "learning_rate": 3.8343851596863644e-08,
      "logits/chosen": -2.68801212310791,
      "logits/rejected": -2.5317561626434326,
      "logps/chosen": -327.53106689453125,
      "logps/rejected": -318.7012939453125,
      "loss": 0.0065,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.34214359521865845,
      "rewards/margins": 12.371678352355957,
      "rewards/rejected": -12.713821411132812,
      "step": 5410
    },
    {
      "epoch": 2.8,
      "learning_rate": 3.738764582138076e-08,
      "logits/chosen": -2.63051700592041,
      "logits/rejected": -2.5712480545043945,
      "logps/chosen": -292.55035400390625,
      "logps/rejected": -406.0823059082031,
      "loss": 0.0096,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.4555866718292236,
      "rewards/margins": 9.967303276062012,
      "rewards/rejected": -12.422890663146973,
      "step": 5420
    },
    {
      "epoch": 2.8,
      "learning_rate": 3.6431440045897875e-08,
      "logits/chosen": -2.558973550796509,
      "logits/rejected": -2.5760269165039062,
      "logps/chosen": -288.33062744140625,
      "logps/rejected": -438.51007080078125,
      "loss": 0.0067,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0792489051818848,
      "rewards/margins": 10.678377151489258,
      "rewards/rejected": -11.7576265335083,
      "step": 5430
    },
    {
      "epoch": 2.81,
      "learning_rate": 3.547523427041499e-08,
      "logits/chosen": -2.607342481613159,
      "logits/rejected": -2.609557628631592,
      "logps/chosen": -283.79608154296875,
      "logps/rejected": -293.2716369628906,
      "loss": 0.0106,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.1565558910369873,
      "rewards/margins": 10.7040433883667,
      "rewards/rejected": -11.860601425170898,
      "step": 5440
    },
    {
      "epoch": 2.81,
      "learning_rate": 3.4519028494932106e-08,
      "logits/chosen": -2.703679084777832,
      "logits/rejected": -2.5151591300964355,
      "logps/chosen": -353.95758056640625,
      "logps/rejected": -433.54766845703125,
      "loss": 0.0033,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7000893354415894,
      "rewards/margins": 11.649955749511719,
      "rewards/rejected": -12.350044250488281,
      "step": 5450
    },
    {
      "epoch": 2.82,
      "learning_rate": 3.356282271944923e-08,
      "logits/chosen": -2.603567600250244,
      "logits/rejected": -2.502267360687256,
      "logps/chosen": -226.2731170654297,
      "logps/rejected": -341.97320556640625,
      "loss": 0.0146,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.9284445643424988,
      "rewards/margins": 11.389801979064941,
      "rewards/rejected": -12.318245887756348,
      "step": 5460
    },
    {
      "epoch": 2.82,
      "learning_rate": 3.260661694396634e-08,
      "logits/chosen": -2.5252528190612793,
      "logits/rejected": -2.5249342918395996,
      "logps/chosen": -263.4516906738281,
      "logps/rejected": -313.29998779296875,
      "loss": 0.0053,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3164348602294922,
      "rewards/margins": 11.594769477844238,
      "rewards/rejected": -11.911203384399414,
      "step": 5470
    },
    {
      "epoch": 2.83,
      "learning_rate": 3.165041116848346e-08,
      "logits/chosen": -2.660788059234619,
      "logits/rejected": -2.5421648025512695,
      "logps/chosen": -253.57839965820312,
      "logps/rejected": -402.5025329589844,
      "loss": 0.0055,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6556440591812134,
      "rewards/margins": 12.180809020996094,
      "rewards/rejected": -13.836453437805176,
      "step": 5480
    },
    {
      "epoch": 2.83,
      "learning_rate": 3.0694205393000576e-08,
      "logits/chosen": -2.5150065422058105,
      "logits/rejected": -2.4512484073638916,
      "logps/chosen": -212.173828125,
      "logps/rejected": -332.0416564941406,
      "loss": 0.0046,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.4317614436149597,
      "rewards/margins": 11.226727485656738,
      "rewards/rejected": -10.794965744018555,
      "step": 5490
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.9737999617517688e-08,
      "logits/chosen": -2.5827393531799316,
      "logits/rejected": -2.5749595165252686,
      "logps/chosen": -308.6050109863281,
      "logps/rejected": -365.627197265625,
      "loss": 0.0079,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.4415368139743805,
      "rewards/margins": 10.942670822143555,
      "rewards/rejected": -11.384206771850586,
      "step": 5500
    },
    {
      "epoch": 2.84,
      "eval_logits/chosen": -2.364140272140503,
      "eval_logits/rejected": -2.319963216781616,
      "eval_logps/chosen": -298.70074462890625,
      "eval_logps/rejected": -339.1661682128906,
      "eval_loss": 0.7524814605712891,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -4.44656229019165,
      "eval_rewards/margins": 3.773061752319336,
      "eval_rewards/rejected": -8.219624519348145,
      "eval_runtime": 58.809,
      "eval_samples_per_second": 17.004,
      "eval_steps_per_second": 0.272,
      "step": 5500
    },
    {
      "epoch": 2.84,
      "learning_rate": 2.8781793842034804e-08,
      "logits/chosen": -2.426349401473999,
      "logits/rejected": -2.384749174118042,
      "logps/chosen": -259.9743347167969,
      "logps/rejected": -300.3887634277344,
      "loss": 0.015,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -2.3269202709198,
      "rewards/margins": 8.843810081481934,
      "rewards/rejected": -11.170731544494629,
      "step": 5510
    },
    {
      "epoch": 2.85,
      "learning_rate": 2.782558806655192e-08,
      "logits/chosen": -2.5341413021087646,
      "logits/rejected": -2.5924274921417236,
      "logps/chosen": -302.21563720703125,
      "logps/rejected": -409.6150817871094,
      "loss": 0.0134,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.3284962177276611,
      "rewards/margins": 9.481134414672852,
      "rewards/rejected": -10.809629440307617,
      "step": 5520
    },
    {
      "epoch": 2.85,
      "learning_rate": 2.6869382291069035e-08,
      "logits/chosen": -2.4547677040100098,
      "logits/rejected": -2.457869052886963,
      "logps/chosen": -229.97561645507812,
      "logps/rejected": -327.1774597167969,
      "loss": 0.0107,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.2366197109222412,
      "rewards/margins": 10.809396743774414,
      "rewards/rejected": -12.04601764678955,
      "step": 5530
    },
    {
      "epoch": 2.86,
      "learning_rate": 2.591317651558615e-08,
      "logits/chosen": -2.308411121368408,
      "logits/rejected": -2.4219300746917725,
      "logps/chosen": -283.2604675292969,
      "logps/rejected": -351.8711242675781,
      "loss": 0.004,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.108804225921631,
      "rewards/margins": 10.290410995483398,
      "rewards/rejected": -12.399213790893555,
      "step": 5540
    },
    {
      "epoch": 2.87,
      "learning_rate": 2.4956970740103267e-08,
      "logits/chosen": -2.5385169982910156,
      "logits/rejected": -2.4845941066741943,
      "logps/chosen": -319.16473388671875,
      "logps/rejected": -403.1438293457031,
      "loss": 0.0085,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6357721090316772,
      "rewards/margins": 10.850339889526367,
      "rewards/rejected": -12.486112594604492,
      "step": 5550
    },
    {
      "epoch": 2.87,
      "learning_rate": 2.4000764964620386e-08,
      "logits/chosen": -2.6393580436706543,
      "logits/rejected": -2.731678009033203,
      "logps/chosen": -312.54034423828125,
      "logps/rejected": -417.93658447265625,
      "loss": 0.0119,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.7174618244171143,
      "rewards/margins": 9.234588623046875,
      "rewards/rejected": -10.952049255371094,
      "step": 5560
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.30445591891375e-08,
      "logits/chosen": -2.5211081504821777,
      "logits/rejected": -2.4729580879211426,
      "logps/chosen": -307.0782775878906,
      "logps/rejected": -450.36962890625,
      "loss": 0.0088,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.05847327783703804,
      "rewards/margins": 13.286686897277832,
      "rewards/rejected": -13.228212356567383,
      "step": 5570
    },
    {
      "epoch": 2.88,
      "learning_rate": 2.2088353413654617e-08,
      "logits/chosen": -2.313760757446289,
      "logits/rejected": -2.362217664718628,
      "logps/chosen": -294.3525390625,
      "logps/rejected": -331.1678771972656,
      "loss": 0.0149,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 1.203790307044983,
      "rewards/margins": 14.620699882507324,
      "rewards/rejected": -13.416910171508789,
      "step": 5580
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.1132147638171733e-08,
      "logits/chosen": -2.0504655838012695,
      "logits/rejected": -2.1224112510681152,
      "logps/chosen": -262.3179626464844,
      "logps/rejected": -329.19732666015625,
      "loss": 0.0119,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7382757067680359,
      "rewards/margins": 10.974761962890625,
      "rewards/rejected": -11.713037490844727,
      "step": 5590
    },
    {
      "epoch": 2.89,
      "learning_rate": 2.0175941862688848e-08,
      "logits/chosen": -2.4296658039093018,
      "logits/rejected": -2.384312391281128,
      "logps/chosen": -263.25592041015625,
      "logps/rejected": -385.36688232421875,
      "loss": 0.0077,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.0216162204742432,
      "rewards/margins": 11.878069877624512,
      "rewards/rejected": -12.899686813354492,
      "step": 5600
    },
    {
      "epoch": 2.89,
      "eval_logits/chosen": -2.351677894592285,
      "eval_logits/rejected": -2.3077552318573,
      "eval_logps/chosen": -299.8206481933594,
      "eval_logps/rejected": -340.4544677734375,
      "eval_loss": 0.7519664168357849,
      "eval_rewards/accuracies": 0.796875,
      "eval_rewards/chosen": -4.5585551261901855,
      "eval_rewards/margins": 3.7899010181427,
      "eval_rewards/rejected": -8.348456382751465,
      "eval_runtime": 57.0149,
      "eval_samples_per_second": 17.539,
      "eval_steps_per_second": 0.281,
      "step": 5600
    },
    {
      "epoch": 2.9,
      "learning_rate": 1.9219736087205964e-08,
      "logits/chosen": -2.4466593265533447,
      "logits/rejected": -2.5641415119171143,
      "logps/chosen": -313.849609375,
      "logps/rejected": -355.71954345703125,
      "loss": 0.0183,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.058788836002349854,
      "rewards/margins": 9.841516494750977,
      "rewards/rejected": -9.782726287841797,
      "step": 5610
    },
    {
      "epoch": 2.9,
      "learning_rate": 1.826353031172308e-08,
      "logits/chosen": -2.6215555667877197,
      "logits/rejected": -2.596318244934082,
      "logps/chosen": -334.0271911621094,
      "logps/rejected": -374.85211181640625,
      "loss": 0.0108,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0268580913543701,
      "rewards/margins": 10.430700302124023,
      "rewards/rejected": -11.45755672454834,
      "step": 5620
    },
    {
      "epoch": 2.91,
      "learning_rate": 1.73073245362402e-08,
      "logits/chosen": -2.3654887676239014,
      "logits/rejected": -2.3259222507476807,
      "logps/chosen": -418.31524658203125,
      "logps/rejected": -296.1111145019531,
      "loss": 0.023,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.1241583824157715,
      "rewards/margins": 9.49864673614502,
      "rewards/rejected": -11.622804641723633,
      "step": 5630
    },
    {
      "epoch": 2.91,
      "learning_rate": 1.6351118760757314e-08,
      "logits/chosen": -2.4572885036468506,
      "logits/rejected": -2.4687421321868896,
      "logps/chosen": -250.23764038085938,
      "logps/rejected": -250.4460906982422,
      "loss": 0.0111,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.8683540225028992,
      "rewards/margins": 8.310081481933594,
      "rewards/rejected": -9.178436279296875,
      "step": 5640
    },
    {
      "epoch": 2.92,
      "learning_rate": 1.539491298527443e-08,
      "logits/chosen": -2.6408703327178955,
      "logits/rejected": -2.641308307647705,
      "logps/chosen": -283.0168151855469,
      "logps/rejected": -405.4056701660156,
      "loss": 0.0036,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.7451741099357605,
      "rewards/margins": 11.91575813293457,
      "rewards/rejected": -12.660932540893555,
      "step": 5650
    },
    {
      "epoch": 2.92,
      "learning_rate": 1.4438707209791546e-08,
      "logits/chosen": -2.531616687774658,
      "logits/rejected": -2.6468756198883057,
      "logps/chosen": -414.9684143066406,
      "logps/rejected": -356.252685546875,
      "loss": 0.0157,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.21153855323791504,
      "rewards/margins": 10.415987014770508,
      "rewards/rejected": -10.627525329589844,
      "step": 5660
    },
    {
      "epoch": 2.93,
      "learning_rate": 1.3482501434308661e-08,
      "logits/chosen": -2.300788402557373,
      "logits/rejected": -2.308450937271118,
      "logps/chosen": -356.91632080078125,
      "logps/rejected": -350.33892822265625,
      "loss": 0.015,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.6116657257080078,
      "rewards/margins": 11.264276504516602,
      "rewards/rejected": -12.875943183898926,
      "step": 5670
    },
    {
      "epoch": 2.93,
      "learning_rate": 1.2526295658825777e-08,
      "logits/chosen": -2.603456497192383,
      "logits/rejected": -2.6166439056396484,
      "logps/chosen": -311.9185791015625,
      "logps/rejected": -450.9242248535156,
      "loss": 0.0147,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.2669516801834106,
      "rewards/margins": 11.346095085144043,
      "rewards/rejected": -12.613046646118164,
      "step": 5680
    },
    {
      "epoch": 2.94,
      "learning_rate": 1.1570089883342895e-08,
      "logits/chosen": -2.5220370292663574,
      "logits/rejected": -2.4531850814819336,
      "logps/chosen": -311.7686462402344,
      "logps/rejected": -400.8462829589844,
      "loss": 0.0135,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.0794099569320679,
      "rewards/margins": 12.467567443847656,
      "rewards/rejected": -13.546978950500488,
      "step": 5690
    },
    {
      "epoch": 2.94,
      "learning_rate": 1.061388410786001e-08,
      "logits/chosen": -2.4289803504943848,
      "logits/rejected": -2.4906742572784424,
      "logps/chosen": -285.3009338378906,
      "logps/rejected": -263.3441467285156,
      "loss": 0.0094,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.07789945602417,
      "rewards/margins": 7.724274635314941,
      "rewards/rejected": -9.80217456817627,
      "step": 5700
    },
    {
      "epoch": 2.94,
      "eval_logits/chosen": -2.3509910106658936,
      "eval_logits/rejected": -2.3062477111816406,
      "eval_logps/chosen": -299.77734375,
      "eval_logps/rejected": -340.47900390625,
      "eval_loss": 0.7527089715003967,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -4.5542216300964355,
      "eval_rewards/margins": 3.7966880798339844,
      "eval_rewards/rejected": -8.350910186767578,
      "eval_runtime": 55.9629,
      "eval_samples_per_second": 17.869,
      "eval_steps_per_second": 0.286,
      "step": 5700
    },
    {
      "epoch": 2.95,
      "learning_rate": 9.657678332377126e-09,
      "logits/chosen": -2.4378364086151123,
      "logits/rejected": -2.5011210441589355,
      "logps/chosen": -278.77166748046875,
      "logps/rejected": -327.8222351074219,
      "loss": 0.0145,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -1.6567916870117188,
      "rewards/margins": 9.313983917236328,
      "rewards/rejected": -10.970773696899414,
      "step": 5710
    },
    {
      "epoch": 2.95,
      "learning_rate": 8.701472556894243e-09,
      "logits/chosen": -2.4347808361053467,
      "logits/rejected": -2.4027464389801025,
      "logps/chosen": -301.68988037109375,
      "logps/rejected": -355.3216247558594,
      "loss": 0.0049,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.6911423206329346,
      "rewards/margins": 10.72395133972168,
      "rewards/rejected": -13.415092468261719,
      "step": 5720
    },
    {
      "epoch": 2.96,
      "learning_rate": 7.745266781411359e-09,
      "logits/chosen": -2.4534902572631836,
      "logits/rejected": -2.554394006729126,
      "logps/chosen": -260.3663635253906,
      "logps/rejected": -410.23223876953125,
      "loss": 0.0164,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.0108587741851807,
      "rewards/margins": 9.392390251159668,
      "rewards/rejected": -11.403249740600586,
      "step": 5730
    },
    {
      "epoch": 2.96,
      "learning_rate": 6.7890610059284754e-09,
      "logits/chosen": -2.566368579864502,
      "logits/rejected": -2.585576057434082,
      "logps/chosen": -261.0205993652344,
      "logps/rejected": -348.109619140625,
      "loss": 0.0074,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.3029209077358246,
      "rewards/margins": 10.11386775970459,
      "rewards/rejected": -10.416789054870605,
      "step": 5740
    },
    {
      "epoch": 2.97,
      "learning_rate": 5.832855230445592e-09,
      "logits/chosen": -2.5495338439941406,
      "logits/rejected": -2.4890074729919434,
      "logps/chosen": -247.47286987304688,
      "logps/rejected": -320.06011962890625,
      "loss": 0.0072,
      "rewards/accuracies": 0.949999988079071,
      "rewards/chosen": -0.9899286031723022,
      "rewards/margins": 10.633166313171387,
      "rewards/rejected": -11.62309455871582,
      "step": 5750
    },
    {
      "epoch": 2.97,
      "learning_rate": 4.8766494549627085e-09,
      "logits/chosen": -2.60798978805542,
      "logits/rejected": -2.477149486541748,
      "logps/chosen": -305.1927795410156,
      "logps/rejected": -318.5039978027344,
      "loss": 0.017,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.8671627044677734,
      "rewards/margins": 9.939409255981445,
      "rewards/rejected": -11.806573867797852,
      "step": 5760
    },
    {
      "epoch": 2.98,
      "learning_rate": 3.920443679479824e-09,
      "logits/chosen": -2.545316219329834,
      "logits/rejected": -2.5275652408599854,
      "logps/chosen": -292.89263916015625,
      "logps/rejected": -323.63385009765625,
      "loss": 0.0161,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -2.3659417629241943,
      "rewards/margins": 9.62957763671875,
      "rewards/rejected": -11.995519638061523,
      "step": 5770
    },
    {
      "epoch": 2.98,
      "learning_rate": 2.96423790399694e-09,
      "logits/chosen": -2.48178768157959,
      "logits/rejected": -2.6639437675476074,
      "logps/chosen": -219.31777954101562,
      "logps/rejected": -324.5710754394531,
      "loss": 0.008,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.672484040260315,
      "rewards/margins": 8.533833503723145,
      "rewards/rejected": -10.206315994262695,
      "step": 5780
    },
    {
      "epoch": 2.99,
      "learning_rate": 2.008032128514056e-09,
      "logits/chosen": -2.54166841506958,
      "logits/rejected": -2.5910754203796387,
      "logps/chosen": -343.8594665527344,
      "logps/rejected": -451.935791015625,
      "loss": 0.011,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -1.7438589334487915,
      "rewards/margins": 10.097026824951172,
      "rewards/rejected": -11.840886116027832,
      "step": 5790
    },
    {
      "epoch": 2.99,
      "learning_rate": 1.0518263530311723e-09,
      "logits/chosen": -2.5881881713867188,
      "logits/rejected": -2.5880398750305176,
      "logps/chosen": -201.51014709472656,
      "logps/rejected": -326.72650146484375,
      "loss": 0.0054,
      "rewards/accuracies": 1.0,
      "rewards/chosen": -0.4769667983055115,
      "rewards/margins": 9.810731887817383,
      "rewards/rejected": -10.287699699401855,
      "step": 5800
    },
    {
      "epoch": 2.99,
      "eval_logits/chosen": -2.353024482727051,
      "eval_logits/rejected": -2.308088779449463,
      "eval_logps/chosen": -299.4037780761719,
      "eval_logps/rejected": -340.0493469238281,
      "eval_loss": 0.7519845962524414,
      "eval_rewards/accuracies": 0.78125,
      "eval_rewards/chosen": -4.5168681144714355,
      "eval_rewards/margins": 3.791072130203247,
      "eval_rewards/rejected": -8.307940483093262,
      "eval_runtime": 55.3708,
      "eval_samples_per_second": 18.06,
      "eval_steps_per_second": 0.289,
      "step": 5800
    },
    {
      "epoch": 3.0,
      "learning_rate": 9.562057754828839e-11,
      "logits/chosen": -2.476783514022827,
      "logits/rejected": -2.4620718955993652,
      "logps/chosen": -259.29327392578125,
      "logps/rejected": -435.9239196777344,
      "loss": 0.015,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 0.16803565621376038,
      "rewards/margins": 8.936319351196289,
      "rewards/rejected": -8.768282890319824,
      "step": 5810
    },
    {
      "epoch": 3.0,
      "step": 5811,
      "total_flos": 0.0,
      "train_loss": 0.2172969928600547,
      "train_runtime": 23865.9828,
      "train_samples_per_second": 7.789,
      "train_steps_per_second": 0.243
    }
  ],
  "logging_steps": 10,
  "max_steps": 5811,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 0.0,
  "trial_name": null,
  "trial_params": null
}