Türkçe Dezenformasyon Gerekçe Üretici (LoRA)

Qwen/Qwen3.6-35B-A3B üzerine LoRA (rank 32) ile eğitilmiş Türkçe iddia → fact-check gerekçe üretici.

⚠️ Bu bir bağımsız fact-checker değildir. Tek kaynaklı, ideolojik olarak yanlı veri ile eğitilmiştir. Üretkenliği desteklemek için tasarlanmıştır, otoriter karar mercii olarak kullanılmamalıdır.

Kullanım

from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer

base = "Qwen/Qwen3.6-35B-A3B"
adapter = "efekurucay/turkish-disinfo-rationale"

tok = AutoTokenizer.from_pretrained(base)
model = AutoModelForCausalLM.from_pretrained(base, device_map="auto")
model = PeftModel.from_pretrained(model, adapter)

messages = [
    {"role": "system", "content": "Sen Türkçe dezenformasyon analiz asistanısın. JSON döndür."},
    {"role": "user", "content": "İddia: Türkiye'de 10 milyon Suriyeli var."},
]
prompt = tok.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    chat_template_kwargs={"enable_thinking": False},
)
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=2048, temperature=0.7, top_p=0.8)
print(tok.decode(out[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

Çıktı şeması:

{
  "verdict": "Yanlış|Doğru|Yanıltıcı|Belirsiz",
  "rationale": "doğrulamayı destekleyen Türkçe açıklama",
  "source": "kaynak URL",
  "bulletin": 72
}

Eğitim verisi

iletisim/dezenformasyon-bultenleri — T.C. Cumhurbaşkanlığı İletişim Başkanlığı Dezenformasyonla Mücadele Merkezi'nin (DMM) yayımladığı haftalık bültenler. ~2810 ham satır → temizlik sonrası ~1500 satır. Tüm satırların rating_label alanı "Yanlış".

Eğitim ayarları

  • Base: Qwen/Qwen3.6-35B-A3B (MoE, 3B aktif / 35B toplam)
  • LoRA rank: 32
  • LR: 1e-4 (Adam)
  • Epochs: 3 (resume training dahil ~4)
  • Batch: 8
  • Max seq: 4096
  • Loss: cross_entropy, sadece assistant token'larında
  • Thinking: kapalı (enable_thinking=False)
  • Eğitim altyapısı: Tinker
  • Final val_nll: 0.58

Eval sonuçları (50 örnek, val set, Claude judge)

Boyut Skor (1-5) Yorum
Format (JSON) 5.00 Tüm çıktılar valid JSON, doğru şema
Türkçe akıcılık 4.24 Gramer ve ifade temiz
Faithfulness (referansla tutarlılık) 3.14 Halüsinasyon var
Coverage (argüman kapsama) 2.98 Genelleme zayıf

Kategori dağılımı

  • Mükemmel (faith≥4, coverage≥4): %28 — sıklıkla referansla kelime kelime aynı
  • Orta (faith=3): %26 — doğru yön, eksik veya kısmen uydurma detay
  • Halüsinasyon (faith≤2): %44 — uydurma isim, tarih, sayı, olay

En kritik halüsinasyon vakaları

  • DMM'i NATO birimi olarak tanımlama
  • Uydurma yer isimleri ve sloganlar
  • Yanlış sayılar (kurban sayısı, tarih, vb.)
  • Konu sapması (verilen iddia → farklı olay anlatımı)

Üretim önerileri

  • RAG zorunlu: DMM API'sinden (https://llm.iletisim.gov.tr/api/v1/search) top-3 retrieve, prompt'a ekle. Halüsinasyonu büyük ölçüde düşürür.
  • temperature=0.3, top_p=0.7: yaratıcılığı düşür, ezberlenmiş kalıbı tetikle
  • Output validation: JSON parse + alan kontrolü, boş/eksik rationale reject

Bias ve sınırlamalar

  1. Tek sınıflı veri — bütün eğitim örnekleri "Yanlış" etiketli. Model her iddiaya "Yanlış" verdict üretmeye eğilimli olabilir. Doğru iddiaları ayırt etme yeteneği sınırlıdır.

  2. Tek kaynaklı veri — sadece T.C. resmi kaynağından. Bağımsız fact-check kuruluşları (Teyit.org, Doğruluk Payı, AFP) ile çapraz doğrulama yapılmamıştır.

  3. Siyasi yanlılık riski — DMM bültenleri ağırlıklı olarak siyasi muhalefet, seçim, mülteci politikası gibi tartışmalı konuları "yanlış" olarak etiketler. Model bu çerçeveyi miras alır.

  4. Hallucination — 4B aktif parametre. Verilmeyen kaynaklara atıf üretebilir. Üretim ortamında RAG katmanı ile doğrulanmalıdır.

  5. Tarihsel kayma — eğitim verisi 2023 ağırlıklı olaylara bakar. Sonraki dönem iddialarında performans düşebilir.

Önerilen kullanım

  • Türkçe gazetecilik / araştırma için gerekçe taslağı üretimi
  • Fact-check editörleri için ön analiz
  • Akademik dezenformasyon araştırması

Önerilmeyen kullanım

  • Otomatik içerik moderasyonu / silme kararı
  • Kullanıcı sansürleme
  • Hukuki delil
  • Bağımsız "gerçek" otoritesi

Lisans

  • Model ağırlıkları: Apache 2.0 (base model lisansı)
  • Eğitim verisi: CC BY 4.0 (DMM kaynağı)

Atıf

@misc{turkish_disinfo_rationale_2026,
  title  = {Türkçe Dezenformasyon Gerekçe Üretici (LoRA)},
  author = {efekurucay},
  year   = {2026},
  url    = {https://huggingface.co/efekurucay/turkish-disinfo-rationale}
}
Downloads last month
16
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for efekurucay/turkish-disinfo-rationale

Adapter
(19)
this model

Dataset used to train efekurucay/turkish-disinfo-rationale