773 lines
6.0 KiB (Stored with Git LFS)
Plaintext
773 lines
6.0 KiB (Stored with Git LFS)
Plaintext
minbpe v1
|
|
'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+
|
|
1
|
|
<|eos|> 1024
|
|
84 84
|
|
67 67
|
|
65 65
|
|
71 71
|
|
84 67
|
|
84 65
|
|
71 67
|
|
71 65
|
|
67 65
|
|
84 71
|
|
84 257
|
|
84 258
|
|
260 65
|
|
256 65
|
|
84 259
|
|
71 257
|
|
256 67
|
|
262 65
|
|
84 263
|
|
71 258
|
|
261 67
|
|
71 256
|
|
257 65
|
|
84 262
|
|
258 65
|
|
259 65
|
|
71 261
|
|
71 260
|
|
67 256
|
|
259 67
|
|
258 67
|
|
263 67
|
|
257 67
|
|
260 256
|
|
266 65
|
|
267 65
|
|
264 67
|
|
261 256
|
|
71 265
|
|
262 256
|
|
268 67
|
|
260 258
|
|
256 256
|
|
71 269
|
|
84 273
|
|
257 256
|
|
266 67
|
|
265 256
|
|
271 65
|
|
265 258
|
|
261 257
|
|
261 264
|
|
260 259
|
|
270 65
|
|
265 257
|
|
270 67
|
|
263 256
|
|
71 267
|
|
275 65
|
|
260 260
|
|
259 256
|
|
263 257
|
|
269 67
|
|
71 272
|
|
258 258
|
|
260 262
|
|
71 268
|
|
274 67
|
|
71 276
|
|
258 256
|
|
259 264
|
|
263 264
|
|
275 67
|
|
71 266
|
|
257 264
|
|
261 262
|
|
260 263
|
|
267 67
|
|
256 264
|
|
258 264
|
|
261 261
|
|
71 274
|
|
271 67
|
|
32 65
|
|
273 67
|
|
280 67
|
|
256 257
|
|
278 67
|
|
258 257
|
|
71 270
|
|
261 259
|
|
71 279
|
|
261 260
|
|
265 260
|
|
261 263
|
|
259 257
|
|
268 257
|
|
262 258
|
|
259 258
|
|
262 261
|
|
266 257
|
|
262 260
|
|
262 259
|
|
281 67
|
|
256 259
|
|
269 257
|
|
256 260
|
|
265 261
|
|
262 263
|
|
260 268
|
|
272 256
|
|
266 264
|
|
256 258
|
|
259 259
|
|
256 261
|
|
263 284
|
|
258 262
|
|
260 261
|
|
299 67
|
|
260 277
|
|
256 263
|
|
264 264
|
|
258 263
|
|
265 265
|
|
262 262
|
|
257 257
|
|
260 280
|
|
290 67
|
|
261 278
|
|
258 259
|
|
259 276
|
|
264 257
|
|
263 263
|
|
270 256
|
|
271 256
|
|
281 256
|
|
269 262
|
|
272 258
|
|
260 267
|
|
265 267
|
|
71 291
|
|
265 278
|
|
263 261
|
|
268 264
|
|
260 271
|
|
279 256
|
|
263 262
|
|
263 259
|
|
273 257
|
|
263 277
|
|
278 257
|
|
261 277
|
|
32 260
|
|
266 258
|
|
269 264
|
|
261 272
|
|
32 266
|
|
268 259
|
|
71 290
|
|
265 280
|
|
266 256
|
|
260 273
|
|
260 287
|
|
276 258
|
|
304 67
|
|
269 256
|
|
282 257
|
|
264 256
|
|
274 256
|
|
262 285
|
|
272 259
|
|
267 258
|
|
275 264
|
|
259 260
|
|
270 257
|
|
265 268
|
|
269 263
|
|
283 258
|
|
260 286
|
|
259 263
|
|
265 272
|
|
265 266
|
|
300 67
|
|
276 256
|
|
309 67
|
|
273 256
|
|
277 256
|
|
261 266
|
|
257 258
|
|
275 256
|
|
265 286
|
|
266 278
|
|
257 262
|
|
265 269
|
|
271 264
|
|
259 261
|
|
277 264
|
|
272 267
|
|
260 283
|
|
262 274
|
|
291 67
|
|
313 67
|
|
270 258
|
|
267 256
|
|
260 272
|
|
261 268
|
|
260 266
|
|
259 284
|
|
271 278
|
|
259 277
|
|
275 258
|
|
262 266
|
|
283 256
|
|
279 258
|
|
277 263
|
|
259 282
|
|
268 262
|
|
261 267
|
|
268 256
|
|
269 259
|
|
260 276
|
|
262 271
|
|
281 257
|
|
259 280
|
|
262 272
|
|
293 257
|
|
270 264
|
|
71 300
|
|
311 279
|
|
262 269
|
|
289 291
|
|
274 257
|
|
271 257
|
|
282 281
|
|
282 256
|
|
261 275
|
|
262 276
|
|
261 292
|
|
280 257
|
|
298 264
|
|
293 258
|
|
274 277
|
|
260 279
|
|
268 266
|
|
270 277
|
|
267 264
|
|
280 264
|
|
265 288
|
|
260 285
|
|
274 264
|
|
339 67
|
|
273 288
|
|
286 258
|
|
267 257
|
|
278 264
|
|
314 67
|
|
282 263
|
|
262 265
|
|
272 274
|
|
279 310
|
|
261 269
|
|
271 259
|
|
263 278
|
|
280 256
|
|
292 261
|
|
277 258
|
|
259 262
|
|
263 269
|
|
32 67
|
|
71 84
|
|
32 265
|
|
260 269
|
|
294 365
|
|
268 288
|
|
260 275
|
|
279 270
|
|
260 270
|
|
71 296
|
|
284 264
|
|
71 302
|
|
273 263
|
|
284 259
|
|
268 281
|
|
302 489
|
|
274 263
|
|
308 256
|
|
278 256
|
|
293 264
|
|
275 257
|
|
265 270
|
|
282 370
|
|
296 386
|
|
275 263
|
|
515 539
|
|
284 258
|
|
330 262
|
|
259 292
|
|
299 264
|
|
262 267
|
|
276 263
|
|
261 271
|
|
265 274
|
|
259 273
|
|
281 263
|
|
289 256
|
|
287 258
|
|
71 309
|
|
277 262
|
|
261 276
|
|
321 276
|
|
288 258
|
|
293 296
|
|
282 264
|
|
277 257
|
|
284 256
|
|
259 271
|
|
259 275
|
|
302 547
|
|
265 276
|
|
262 286
|
|
294 256
|
|
290 264
|
|
453 271
|
|
266 263
|
|
285 263
|
|
261 281
|
|
290 257
|
|
261 337
|
|
262 280
|
|
260 282
|
|
268 263
|
|
261 279
|
|
259 272
|
|
285 258
|
|
260 295
|
|
260 274
|
|
484 578
|
|
272 280
|
|
549 283
|
|
261 265
|
|
261 282
|
|
262 279
|
|
261 288
|
|
260 306
|
|
272 286
|
|
293 256
|
|
281 264
|
|
278 294
|
|
268 284
|
|
266 266
|
|
296 287
|
|
259 266
|
|
270 263
|
|
279 263
|
|
309 257
|
|
259 267
|
|
271 258
|
|
261 273
|
|
268 269
|
|
262 273
|
|
361 425
|
|
271 263
|
|
262 270
|
|
272 263
|
|
301 257
|
|
269 276
|
|
294 258
|
|
349 606
|
|
297 256
|
|
319 256
|
|
274 262
|
|
272 285
|
|
289 257
|
|
318 295
|
|
273 287
|
|
324 447
|
|
294 257
|
|
384 471
|
|
261 295
|
|
261 270
|
|
283 341
|
|
260 265
|
|
71 323
|
|
306 264
|
|
281 296
|
|
259 278
|
|
262 277
|
|
32 270
|
|
267 284
|
|
633 394
|
|
279 266
|
|
269 273
|
|
335 266
|
|
281 277
|
|
275 278
|
|
269 260
|
|
629 486
|
|
331 267
|
|
283 325
|
|
261 274
|
|
276 259
|
|
285 259
|
|
352 257
|
|
297 258
|
|
284 257
|
|
32 302
|
|
71 311
|
|
283 263
|
|
289 264
|
|
284 278
|
|
273 272
|
|
267 263
|
|
616 531
|
|
317 392
|
|
32 256
|
|
645 266
|
|
287 267
|
|
277 266
|
|
287 259
|
|
301 497
|
|
292 258
|
|
316 263
|
|
261 293
|
|
271 360
|
|
262 307
|
|
279 362
|
|
265 298
|
|
278 284
|
|
270 262
|
|
305 258
|
|
71 440
|
|
295 256
|
|
277 274
|
|
265 279
|
|
282 334
|
|
263 273
|
|
317 328
|
|
307 256
|
|
269 266
|
|
259 270
|
|
272 273
|
|
537 317
|
|
261 283
|
|
291 264
|
|
314 256
|
|
262 268
|
|
259 310
|
|
260 281
|
|
312 286
|
|
296 272
|
|
495 301
|
|
263 267
|
|
301 264
|
|
295 264
|
|
275 259
|
|
279 320
|
|
274 271
|
|
272 272
|
|
303 257
|
|
307 278
|
|
344 266
|
|
276 285
|
|
270 278
|
|
623 319
|
|
332 284
|
|
282 259
|
|
32 268
|
|
668 292
|
|
291 256
|
|
300 256
|
|
281 270
|
|
315 324
|
|
297 264
|
|
692 719
|
|
32 289
|
|
263 260
|
|
464 281
|
|
339 257
|
|
267 267
|
|
261 287
|
|
269 281
|
|
269 271
|
|
276 450
|
|
272 262
|
|
271 266
|
|
280 263
|
|
256 277
|
|
288 259
|
|
274 304
|
|
282 723
|
|
261 297
|
|
303 268
|
|
262 281
|
|
267 259
|
|
32 279
|
|
257 271
|
|
551 321
|
|
592 716
|
|
528 277
|
|
258 271
|
|
274 274
|
|
266 259
|
|
265 303
|
|
273 264
|
|
269 288
|
|
270 259
|
|
352 286
|
|
263 346
|
|
610 754
|
|
300 257
|
|
283 259
|
|
273 277
|
|
262 289
|
|
315 276
|
|
265 301
|
|
280 278
|
|
355 652
|
|
322 264
|
|
268 260
|
|
281 259
|
|
448 273
|
|
287 263
|
|
279 260
|
|
266 281
|
|
286 263
|
|
329 264
|
|
270 271
|
|
278 263
|
|
265 323
|
|
312 257
|
|
295 260
|
|
327 332
|
|
331 349
|
|
671 303
|
|
279 259
|
|
318 331
|
|
299 257
|
|
520 308
|
|
319 258
|
|
269 275
|
|
330 264
|
|
273 259
|
|
289 266
|
|
310 264
|
|
272 266
|
|
343 594
|
|
32 257
|
|
290 256
|
|
304 257
|
|
289 776
|
|
32 315
|
|
318 340
|
|
764 603
|
|
276 280
|
|
706 573
|
|
260 323
|
|
356 278
|
|
406 640
|
|
308 264
|
|
299 256
|
|
366 272
|
|
322 257
|
|
341 258
|
|
260 297
|
|
262 275
|
|
308 283
|
|
271 283
|
|
654 675
|
|
364 430
|
|
267 280
|
|
304 256
|
|
271 277
|
|
287 590
|
|
441 352
|
|
258 481
|
|
32 310
|
|
262 282
|
|
32 303
|
|
328 690
|
|
261 307
|
|
296 294
|
|
269 272
|
|
261 306
|
|
271 288
|
|
269 268
|
|
287 280
|
|
300 264
|
|
271 272
|
|
285 272
|
|
567 356
|
|
267 261
|
|
263 271
|
|
275 280
|
|
262 287
|
|
274 499
|
|
729 305
|
|
348 276
|
|
265 289
|
|
269 282
|
|
413 272
|
|
787 702
|
|
479 301
|
|
306 290
|
|
500 277
|
|
268 268
|
|
262 290
|
|
317 464
|
|
270 266
|
|
262 326
|
|
824 665
|
|
351 287
|
|
307 257
|
|
261 291
|
|
262 306
|
|
298 258
|
|
32 259
|
|
275 275
|
|
261 294
|
|
418 583
|
|
269 267
|
|
266 288
|
|
295 347
|
|
268 282
|
|
261 289
|
|
263 274
|
|
281 284
|
|
672 288
|
|
265 293
|
|
271 292
|
|
260 289
|
|
267 277
|
|
262 283
|
|
261 308
|
|
340 514
|
|
263 285
|
|
272 290
|
|
259 308
|
|
283 372
|
|
298 256
|
|
284 260
|
|
303 264
|
|
565 268
|
|
263 288
|
|
281 272
|
|
282 301
|
|
312 258
|
|
324 256
|
|
286 262
|
|
309 256
|
|
261 285
|
|
307 264
|
|
862 636
|
|
371 258
|
|
316 258
|
|
279 274
|
|
266 276
|
|
283 405
|
|
367 264
|
|
303 258
|
|
270 284
|
|
277 259
|
|
538 260
|
|
397 256
|
|
261 326
|
|
265 297
|
|
278 337
|
|
263 292
|
|
316 257
|
|
321 283
|
|
314 264
|
|
359 299
|
|
325 259
|
|
306 258
|
|
328 258
|
|
311 428
|
|
279 268
|
|
275 813
|
|
360 301
|
|
270 267
|
|
279 280
|
|
270 669
|
|
286 286
|
|
260 296
|
|
273 262
|
|
269 278
|
|
304 306
|
|
851 752
|
|
614 711
|
|
666 889
|
|
546 390
|
|
298 257
|
|
744 361
|
|
265 291
|
|
271 262
|
|
263 272
|
|
270 280
|
|
807 486
|
|
269 290
|
|
375 256
|
|
273 284
|
|
277 268
|
|
281 299
|
|
274 259
|
|
263 275
|
|
816 390
|
|
259 287
|
|
271 276
|
|
289 258
|
|
274 267
|
|
318 258
|
|
274 270
|
|
260 291
|
|
926 507
|
|
305 256
|
|
302 275
|
|
930 941
|
|
300 279
|
|
316 264
|
|
263 276
|
|
271 279
|
|
266 292
|
|
302 258
|
|
329 257
|
|
265 343
|
|
305 264
|
|
274 284
|
|
379 541
|
|
286 272
|
|
32 261
|
|
260 312
|
|
308 257
|
|
273 276
|
|
321 282
|
|
297 284
|
|
268 278
|
|
265 290
|
|
262 310
|
|
971 697
|
|
333 258
|
|
912 630
|
|
621 320
|
|
71 383
|
|
947 762
|
|
286 280
|
|
263 270
|
|
369 960
|
|
261 301
|
|
354 293
|
|
283 455
|
|
276 362
|
|
259 285
|
|
385 325
|
|
327 256
|
|
276 325
|
|
275 277
|
|
396 67
|
|
283 417
|
|
313 264
|
|
278 259
|
|
313 257
|
|
261 343
|
|
658 261
|
|
310 258
|
|
313 342
|
|
260 294
|
|
828 565
|
|
262 293
|
|
631 259
|