trakad-embed-v2 — Türkçe Akademik Embedder

paraphrase-multilingual-mpnet-base-v2'nin 633K Türkçe tez başlık↔özet çifti üzerinde, konu-duyarlı hard-negative madenciliği + contrastive loss ile fine-tune edilmiş hali. 768 boyut, kosinüs.

TürkResearcher projesinin retriever'ı — Türkçe akademik literatür erişimi için.

Ölçülen kazanım

Genel mpnet baseline'a göre TürkResearcher RAG hattında:

  • citation accuracy +%9.9 (0.507 → 0.557)
  • faithfulness +%7.8
  • Bilgisayar (CS) kategorisi +%42.6 (orijinal başarısızlık modu kapandı)

Kullanım

from sentence_transformers import SentenceTransformer

m = SentenceTransformer("hakansabunis/trakad-embed-v2")
emb = m.encode(["Türkçe doğal dil işleme yöntemleri"],
               normalize_embeddings=True)

Bağlantılar

Lisans & atıf

Apache-2.0 (taban model lisansı). Eğitim verisi: YÖK tez özetleri (CC-BY-4.0). Geliştirici: Hakan Sabuniş.

Downloads last month
77
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hakansabunis/trakad-embed-v2

Space using hakansabunis/trakad-embed-v2 1