HuggingFace M.INC

DAC60M

Logo di DAC60M

DAC60M Γ¨ un compact language model sviluppato da M.INC. Research e addestrato da Mattimax, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana.

Il modello adotta un’architettura LLaMA-style decoder-only, con un totale di ~67 milioni di parametri, ed Γ¨ ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate.


Key Facts

  • Developer: M.INC. Research
  • Trainer: Mattimax
    https://huggingface.co/Mattimax
  • Model type: Decoder-only Transformer (LLaMA-style causal LM)
  • Parameters: ~67M
  • Primary language: Italian

πŸ” Overview

DAC60M nasce come modello leggero ma strutturalmente solido, pensato per:

  • sperimentare architetture LLaMA compatte,
  • effettuare fine-tuning rapidi e a basso costo,
  • testare pipeline conversational su hardware limitato,
  • fungere da base per distillazione o ricerca accademica.

L’obiettivo non Γ¨ competere con modelli di scala superiore, ma offrire un baseline pulito, trasparente e facilmente estendibile nel segmento small language models.

🧠 Architecture

DAC60M utilizza una variante personalizzata di LlamaForCausalLM.

Core Configuration

{
  "architectures": ["LlamaForCausalLM"],
  "model_type": "llama",
  "hidden_size": 512,
  "intermediate_size": 2048,
  "num_hidden_layers": 8,
  "num_attention_heads": 8,
  "num_key_value_heads": 8,
  "head_dim": 64,
  "hidden_act": "silu",
  "max_position_embeddings": 2048,
  "vocab_size": 32768,
  "attention_bias": false,
  "attention_dropout": 0.0,
  "mlp_bias": false,
  "rms_norm_eps": 1e-06,
  "rope_theta": 10000.0,
  "rope_scaling": null,
  "tie_word_embeddings": false,
  "initializer_range": 0.02,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "torch_dtype": "float32",
  "use_cache": true,
  "transformers_version": "4.51.3"
}

πŸ”€ Tokenizer

DAC60M utilizza il tokenizer del modello:

sapienzanlp/Minerva-350M-base-v1.0 https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0

Motivazione:

  • Vocabolario ampio (32k)
  • Buon supporto multilingua
  • StabilitΓ  comprovata

πŸ“š Training

Dettagli sul training:

  • Framework: PyTorch + HuggingFace Transformers
  • Objective: Causal Language Modeling
  • Precisione: float32

(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)


🎯 Intended Use

DAC60M Γ¨ adatto per:

  • Generazione di testo
  • Autocompletamento
  • Chatbot sperimentali
  • Studio di scaling laws
  • Distillazione

Non Γ¨ progettato per:

  • Uso medicale
  • Uso legale
  • Decision making critico

⚠️ Limitations

  • CapacitΓ  limitate rispetto a modelli >1B parametri
  • Possibili allucinazioni
  • Sensibile alla qualitΓ  dei prompt

πŸ›‘οΈ Ethical Considerations

Il modello puΓ² generare contenuti scorretti o fuorvianti. È responsabilitΓ  dell’utente:

  • Filtrare output
  • Implementare moderation
  • Evitare usi dannosi

πŸ” Reproducibility

Per riprodurre l’ambiente:

pip install transformers==4.51.3 torch

πŸ“Œ Citation

@misc{dac60m,
  title={DAC60M: A Compact LLaMA-style Language Model},
  author={M.INC. Research and Mattimax},
  year={2025},
  url={https://huggingface.co/Mattimax}
}

πŸ“« Contact

  • Organization: M.INC. (Research)
  • Trainer: Mattimax (HuggingFace)
Downloads last month
-
Safetensors
Model size
67.1M params
Tensor type
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for Mattimax/DAC60M

Finetuned
(2)
this model
Quantizations
2 models

Dataset used to train Mattimax/DAC60M

Collection including Mattimax/DAC60M