Türkçe Dezenformasyon Gerekçe Üretici (LoRA)
Qwen/Qwen3.6-35B-A3B üzerine LoRA (rank 32) ile eğitilmiş Türkçe iddia → fact-check gerekçe üretici.
⚠️ Bu bir bağımsız fact-checker değildir. Tek kaynaklı, ideolojik olarak yanlı veri ile eğitilmiştir. Üretkenliği desteklemek için tasarlanmıştır, otoriter karar mercii olarak kullanılmamalıdır.
Kullanım
from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer
base = "Qwen/Qwen3.6-35B-A3B"
adapter = "efekurucay/turkish-disinfo-rationale"
tok = AutoTokenizer.from_pretrained(base)
model = AutoModelForCausalLM.from_pretrained(base, device_map="auto")
model = PeftModel.from_pretrained(model, adapter)
messages = [
{"role": "system", "content": "Sen Türkçe dezenformasyon analiz asistanısın. JSON döndür."},
{"role": "user", "content": "İddia: Türkiye'de 10 milyon Suriyeli var."},
]
prompt = tok.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
chat_template_kwargs={"enable_thinking": False},
)
inputs = tok(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=2048, temperature=0.7, top_p=0.8)
print(tok.decode(out[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
Çıktı şeması:
{
"verdict": "Yanlış|Doğru|Yanıltıcı|Belirsiz",
"rationale": "doğrulamayı destekleyen Türkçe açıklama",
"source": "kaynak URL",
"bulletin": 72
}
Eğitim verisi
iletisim/dezenformasyon-bultenleri
— T.C. Cumhurbaşkanlığı İletişim Başkanlığı Dezenformasyonla Mücadele
Merkezi'nin (DMM) yayımladığı haftalık bültenler. ~2810 ham satır → temizlik
sonrası ~1500 satır. Tüm satırların rating_label alanı "Yanlış".
Eğitim ayarları
- Base:
Qwen/Qwen3.6-35B-A3B(MoE, 3B aktif / 35B toplam) - LoRA rank: 32
- LR: 1e-4 (Adam)
- Epochs: 3 (resume training dahil ~4)
- Batch: 8
- Max seq: 4096
- Loss: cross_entropy, sadece assistant token'larında
- Thinking: kapalı (
enable_thinking=False) - Eğitim altyapısı: Tinker
- Final val_nll: 0.58
Eval sonuçları (50 örnek, val set, Claude judge)
| Boyut | Skor (1-5) | Yorum |
|---|---|---|
| Format (JSON) | 5.00 | Tüm çıktılar valid JSON, doğru şema |
| Türkçe akıcılık | 4.24 | Gramer ve ifade temiz |
| Faithfulness (referansla tutarlılık) | 3.14 | Halüsinasyon var |
| Coverage (argüman kapsama) | 2.98 | Genelleme zayıf |
Kategori dağılımı
- Mükemmel (faith≥4, coverage≥4): %28 — sıklıkla referansla kelime kelime aynı
- Orta (faith=3): %26 — doğru yön, eksik veya kısmen uydurma detay
- Halüsinasyon (faith≤2): %44 — uydurma isim, tarih, sayı, olay
En kritik halüsinasyon vakaları
- DMM'i NATO birimi olarak tanımlama
- Uydurma yer isimleri ve sloganlar
- Yanlış sayılar (kurban sayısı, tarih, vb.)
- Konu sapması (verilen iddia → farklı olay anlatımı)
Üretim önerileri
- RAG zorunlu: DMM API'sinden (
https://llm.iletisim.gov.tr/api/v1/search) top-3 retrieve, prompt'a ekle. Halüsinasyonu büyük ölçüde düşürür. - temperature=0.3, top_p=0.7: yaratıcılığı düşür, ezberlenmiş kalıbı tetikle
- Output validation: JSON parse + alan kontrolü, boş/eksik rationale reject
Bias ve sınırlamalar
Tek sınıflı veri — bütün eğitim örnekleri "Yanlış" etiketli. Model her iddiaya "Yanlış" verdict üretmeye eğilimli olabilir. Doğru iddiaları ayırt etme yeteneği sınırlıdır.
Tek kaynaklı veri — sadece T.C. resmi kaynağından. Bağımsız fact-check kuruluşları (Teyit.org, Doğruluk Payı, AFP) ile çapraz doğrulama yapılmamıştır.
Siyasi yanlılık riski — DMM bültenleri ağırlıklı olarak siyasi muhalefet, seçim, mülteci politikası gibi tartışmalı konuları "yanlış" olarak etiketler. Model bu çerçeveyi miras alır.
Hallucination — 4B aktif parametre. Verilmeyen kaynaklara atıf üretebilir. Üretim ortamında RAG katmanı ile doğrulanmalıdır.
Tarihsel kayma — eğitim verisi 2023 ağırlıklı olaylara bakar. Sonraki dönem iddialarında performans düşebilir.
Önerilen kullanım
- Türkçe gazetecilik / araştırma için gerekçe taslağı üretimi
- Fact-check editörleri için ön analiz
- Akademik dezenformasyon araştırması
Önerilmeyen kullanım
- Otomatik içerik moderasyonu / silme kararı
- Kullanıcı sansürleme
- Hukuki delil
- Bağımsız "gerçek" otoritesi
Lisans
- Model ağırlıkları: Apache 2.0 (base model lisansı)
- Eğitim verisi: CC BY 4.0 (DMM kaynağı)
Atıf
@misc{turkish_disinfo_rationale_2026,
title = {Türkçe Dezenformasyon Gerekçe Üretici (LoRA)},
author = {efekurucay},
year = {2026},
url = {https://huggingface.co/efekurucay/turkish-disinfo-rationale}
}
- Downloads last month
- 16
Model tree for efekurucay/turkish-disinfo-rationale
Base model
Qwen/Qwen3.6-35B-A3B