17 3

Andrey

Bochkov

AI & ML interests

None yet

Recent Activity

posted an update about 2 hours ago

Curious reproducible fact: I trained a GPT-like decoder-only Transformer where the entire input embedding table is frozen and reduced to a 16‑D binary token-ID code (0/1) — this is NOT 16-bit quantization. Key details: - vocab_size = 65536, n_embed = 16 (2^16 = 65536 unique IDs) - deterministic expansion 16 → d_model=1024 via repeat_interleave (scale=64) - full embedding table is published (embeddings.txt) for auditability Repro note + verification script: https://huggingface.co/blog/Bochkov/emergent-semantics-beyond-token-embeddings Model repo: https://huggingface.co/Bochkov/emergent-semantics-model-16-bit-269m License: Apache-2.0

upvoted a paper 3 days ago

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

updated a model 4 days ago

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

View all activity

Organizations

None yet

Posts 1

Post

Curious reproducible fact: I trained a GPT-like decoder-only Transformer where the entire input embedding table is frozen and reduced to a 16‑D binary token-ID code (0/1) — this is NOT 16-bit quantization.

Key details:
- vocab_size = 65536, n_embed = 16 (2^16 = 65536 unique IDs)
- deterministic expansion 16 → d_model=1024 via repeat_interleave (scale=64)
- full embedding table is published (embeddings.txt) for auditability

Repro note + verification script:
https://huggingface.co/blog/Bochkov/emergent-semantics-beyond-token-embeddings

Model repo:
Bochkov/emergent-semantics-model-16-bit-269m

License: Apache-2.0

Articles 1

Article

Emergent Semantics Beyond Token Embeddings: A GPT-like Transformer Learns with Frozen 16‑D Binary Token-ID Embeddings (n_embed=16)

datasets 0

None public yet

Andrey

AI & ML interests

Recent Activity

Organizations

Posts 1

Articles 1

Emergent Semantics Beyond Token Embeddings: A GPT-like Transformer Learns with Frozen 16‑D Binary Token-ID Embeddings (n_embed=16)

Collections 5

Bochkov/emergent-semantics-model-uni-glyph-335m

Bochkov/emergent-semantics-model-unfrozen-335m

Bochkov/emergent-semantics-model-16-bit-269m

Bochkov/emergent-semantics-model-64-bit-272m

Bochkov/growing-transformers-model-16-bit-1-9-181m

Bochkov/growing-transformers-model-unicode-1-9-247m

Bochkov/growing-transformers-model-unfrozen-1-9-247m

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

Bochkov/emergent-semantics-model-uni-glyph-335m

Bochkov/emergent-semantics-model-unfrozen-335m

Bochkov/emergent-semantics-model-16-bit-269m

Bochkov/emergent-semantics-model-64-bit-272m

Bochkov/growing-transformers-model-16-bit-1-9-181m

Bochkov/growing-transformers-model-unicode-1-9-247m

Bochkov/growing-transformers-model-unfrozen-1-9-247m

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

Papers 2

models 31

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

Bochkov/growing-transformers-model-unfrozen-baseline-monolyth-247m

Bochkov/growing-transformers-model-unfrozen-1-9-247m

Bochkov/growing-transformers-model-16-bit-1-9-181m

Bochkov/growing-transformers-model-frozen-unicode-baseline-monolyth-247m

Bochkov/emergent-semantics-model-uni-glyph-335m

Bochkov/emergent-semantics-model-unfrozen-335m

Bochkov/emergent-semantics-model-16-bit-269m

Bochkov/emergent-semantics-model-64-bit-272m

Bochkov/emergent-semantics-model-256-bit-285m

datasets 0

Andrey

AI & ML interests

Recent Activity

Organizations

Posts 1

Articles 1

Emergent Semantics Beyond Token Embeddings: A GPT-like Transformer Learns with Frozen 16‑D Binary Token-ID Embeddings (n_embed=16)

Collections 5

Papers 2

models 31 Sort: Recently updated

datasets 0

models 31