File size: 17,072 Bytes
112ed8a | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 | #!/bin/bash
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ AIPF ็ตๆดป่ฏไผฐ่ๆฌไฝฟ็จๆๅ (้
ๅ run_eval_flex.sh) โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# ๆฌๆไปถๆฏ run_eval_flex.sh ็่ฏดๆๆๆกฃ๏ผไธ้่ฆ็ดๆฅๆง่กใ
# ๅฎ้
่ฟ่ก่ฏท็จ: bash run_eval_flex.sh [ๅๆฐ]
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 1. ่ๆฏไธๆ่ทฏ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# AIPF (AI Policy Framework) ็ๆ ธๅฟ่ฏๆตไปปๅกๆฏ๏ผ็ปๅฎไธๆกๅพ
่ฏๅ
ๅฎน๏ผgolden set๏ผ๏ผ
# ๅจไธๆๅทฒๆๅฅฝๅบ็"ๅฐบๅญ"๏ผruler๏ผ็บฆ 200 ๆกๆ ๆณจๆ ทๆฌ๏ผไธๆพๅฐๅฎๅบ่ฏฅๆๅ
ฅ็ไฝ็ฝฎ๏ผ
# ไป่ๅพๅฐไธไธชไธฅ้็จๅบฆๅๆฐใๆพไฝ็ฝฎ็่ฟ็จไพ่ต LLM ๅ pairwise comparison๏ผไธคไธคๆฏ่พ๏ผใ
#
# ้ฎ้ขๅจไบ๏ผๅฐบๅญๆ 200 ๆก๏ผไธๅฏ่ฝ้ๆกๆฏ่พ๏ผๅคช่ดตๅคชๆ
ข๏ผ๏ผๆไปฅ้่ฆๆ็ดข็ญ็ฅๆฅๅณๅฎ
# "่ทๅฐบๅญไธ็ๅชๅ ๆกๅปๆฏ"ใ็ฎๅๆไธคไธชๅ
ณ้ฎ็ๅฏ่ฐ็ปดๅบฆ๏ผ
#
# ใ็ปดๅบฆไธ๏ผๆฏ่พ่ฝฎๆฌก (num_rounds)ใ
# - 8 ่ฝฎ๏ผๆฏๆกๆ ทๆฌ่ทๅฐบๅญๅ 8 ๆฌก LLM pairwise comparison๏ผ็ฒพๅบฆ้ซไฝๆๆฌ็ฟปๅ
# - 4 ่ฝฎ๏ผๅชๆฏ 4 ๆฌก๏ผ็ไธๅ LLM ่ฐ็จ๏ผไฝๅฏ่ฝไธๅค็ฒพ็กฎ
#
# ใ็ปดๅบฆไบ๏ผๆฏๅฆ็จ embedding ๅ warm-startใ
# - ๆ warm-start๏ผ็ฌฌไธ่ฝฎ็จๅๅๅๆฎต้ๆ ท๏ผไปๅฐบๅญ้็ญ้ด่ท้ๅ้ๅปๆฏ่พ
# - ๆ warm-start๏ผๅ
็จ embedding ๆจกๅ (Qwen3-Embedding-8B) ๆๅพ
่ฏๅ
ๅฎนๅๅฐบๅญ
# ๅ
จ้จ็ผ็ ๆๅ้๏ผ็ฎ cosine ็ธไผผๅบฆๆพๅฐๆ่ฟ้ป๏ผ็จๆ่ฟ้ป็ rank ไฝไธบๆ็ดข่ตท็นใ
# ่ฟๆ ท็ฌฌไธ่ฝฎๅฐฑ่ฝไปไธไธช"ๅคงๆฆๅฏน"็ไฝ็ฝฎๅผๅงๆฏ่พ๏ผๅ็ปญๅ ่ฝฎ็จๆฅๅพฎ่ฐ๏ผ
# ็่ฎบไธๅฏไปฅ็จๆดๅฐ็่ฝฎๆฌก่พพๅฐๅๆ ท็็ฒพๅบฆใ
#
# ๆ ธๅฟๅ่ฎพ๏ผๅฆๆ warm-start ่ฝ็ปๅบไธไธช่ถณๅคๅฅฝ็ๅๅงไฝ็ฝฎ๏ผ้ฃไน 4 ่ฝฎๅพฎ่ฐๅฐฑ่ฝ
# ้ผ่ฟ 8 ่ฝฎ็็ฒพๅบฆ๏ผๅๆถ LLM ่ฐ็จ้ๅๅ โ ๆๆฌๅๅใ้ๅบฆ็ฟปๅใ
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 2. ๅ็งๅฎ้ช้
็ฝฎ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# โโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ ้
็ฝฎ โ ๅฝไปค โ ๅซไน โ
# โโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
# โ baseline โ --rounds 8 โ ็บฏ LLM 8่ฝฎ๏ผๆ ่พ
ๅฉ๏ผ็ฒพๅบฆๅคฉ่ฑๆฟ โ
# โ ่ฝฎๆฌกๅๅ โ --rounds 4 โ ็บฏ LLM 4่ฝฎ๏ผ็็ฒพๅบฆๆๅคๅฐ โ
# โ warm+4่ฝฎ(top5) โ --rounds 4 โ embedding top5 ้ขไผฐ่ตท็น + LLM 4่ฝฎ โ
# โ โ --warmstart โ ็จๆๅฐ็้ปๅฑ
ๅ็ฒไผฐ๏ผ็ GPU ๆถ้ด โ
# โ โ top5 โ โ
# โ warm+4่ฝฎ(top100) โ --rounds 4 โ embedding top100 ้ขไผฐ่ตท็น + LLM 4่ฝฎ โ
# โ โ --warmstart โ ็จๆดๅค้ปๅฑ
ๅๅ ๆๅนณๅ๏ผไฝ็ฝฎไผฐ่ฎกๆด็จณ โ
# โ โ top100 โ โ
# โโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 3. ๅฎๆดๆต็จๅพ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# [golden_set.csv]
# โ
# โโโ (ๅฆๆ --warmstart top5/top100) โโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ Step 0a: batch_top{5,100}_match.py โ
# โ โ ๅ ่ฝฝ Qwen3-Embedding-8B โ
# โ โ ๅฏน golden_set ๅ ruler ๅๅซๅ embedding โ
# โ โ ็ฎ cosine ็ธไผผๅบฆ๏ผๅ top-K ๆ่ฟ้ป โ
# โ โ ่พๅบ emb_top{5,100}.jsonl โ
# โ โ
# โ Step 0b: add_estimated_position.py โ
# โ โ ่ฏป jsonl ้ top-K ้ปๅฑ
็ rank๏ผ็ฎๅๅผ โ
# โ โ ๅๅ
ฅ csv ็ estimated_position ๅ โ
# โ โ ่พๅบ golden_with_warmstart.csv๏ผไธๆฑกๆๅๅงๆไปถ๏ผ โ
# โ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ-โ
# โ
# โผ
# Step 1: ็ๆ่ฟ่กๆถ pipeline.yaml
# โ ไปๅบๅ pipeline.yaml ๅคๅถไธไปฝๅฐ workspace
# โ ่ฆ็ num_rounds ๅ search_method
# โ ไฟ่ฏๅฎ้ชๅๆฐไธๅบๅ้
็ฝฎ้็ฆป๏ผไธๆนๅๆไปถ
# โ
# โผ
# Step 2: prepare_local_eval_data.py
# โ ๆ csv ่ฝฌๆ find_positions ้่ฆ็ jsonl ๆ ผๅผ
# โ ๅฆๆ csv ๆ estimated_position ๅ๏ผไผ้ไผ ๅฐ jsonl
# โ
# โผ
# Step 3: gen_find_positions_cfg.py
# โ ่ฏป pipeline.yaml + ๅบๆฏๅๆฐ
# โ ็ๆ find_positions.py ็ๅฎๆด้
็ฝฎ yaml
# โ ๅ
ๅซ๏ผLLM ๅฐๅใruler ่ทฏๅพใๆ็ดขๅๆฐ็ญ
# โ
# โผ
# Step 4: find_positions.py๏ผๆ ธๅฟๆญฅ้ชค๏ผ
# โ ้ๆก่ฏปๅพ
่ฏๆ ทๆฌ
# โ ๅฆๆๆ estimated_position โ warm-start๏ผ็ฌฌไธ่ฝฎ็ดๆฅๆฏ่ฏฅไฝ็ฝฎ็ ruler item
# โ ๅฆๆๆฒกๆ โ ๅๅๅๆฎต้ๆ ท้ๅ้
# โ ๆฏ่ฝฎๆฏๅฎๅ๏ผๆ score ๅทฎๅผ้ไธไธ่ฝฎๅ้๏ผheuristic_search ็ญ็ฅ๏ผ
# โ ๅ
ฑๆฏ num_rounds ่ฝฎ๏ผ่พๅบๆ็ปๆๅ
ฅไฝ็ฝฎๅๅๆฐ
# โ
# โผ
# Step 5: evaluate_local_ruler_results.py
# โ ๆ find_positions ็็ปๆๅ golden_set ็ ground truth ๅฏนๆฏ
# โ ่พๅบ้ๆก case_results.jsonl + ๆฑๆป metrics.json (precision/recall/f1)
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 4. ็จๆณ็คบไพ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# ๅฎ้ช1: baseline โโ ็บฏ heuristic 8่ฝฎ๏ผๆๆฌๆ้ซไฝ็ฒพๅบฆๆๅฅฝ
bash run_eval_flex.sh --rounds 8
# ๅฎ้ช2: ่ฝฎๆฌกๅๅ โโ ็บฏ heuristic 4่ฝฎ๏ผ็็ฒพๅบฆไธ้ๅคๅฐ
bash run_eval_flex.sh --rounds 4
# ๅฎ้ช3: embedding top5 warm-start + 4่ฝฎ
# ็จ Qwen3 embedding ๆพ 5 ไธชๆ่ฟ้ป๏ผๅๅผ rank ๅฝ่ตท็น๏ผ็ถๅ LLM ๅ 4 ่ฝฎๅพฎ่ฐ
# ้ขๆ๏ผ็ฒไผฐๅค็จ๏ผ็ GPU๏ผๅช็ฎ 5 ไธช้ปๅฑ
็็ธไผผๅบฆ๏ผ
bash run_eval_flex.sh --rounds 4 --warmstart top5
# ๅฎ้ช4: embedding top100 warm-start + 4่ฝฎ
# ็จ 100 ไธช้ปๅฑ
ๅๅ ๆๅนณๅ๏ผ่ตท็นไผฐ่ฎกๆด็จณ
# GPU ๅผ้็จๅคงไฝไป่ฟๅฐไบ LLM ่ฐ็จๆๆฌ
bash run_eval_flex.sh --rounds 4 --warmstart top100
# ๅช่ท nsa ๅบๆฏ
bash run_eval_flex.sh --rounds 4 --warmstart top5 --scenario nsa
# ๅ
จ้จๅบๆฏ (yss + nsa)
bash run_eval_flex.sh --rounds 4 --warmstart top100 --scenario all
# ๆๅฎๆฅๆ + ๅช่ทๅ 50 ๆกๅ smoke test๏ผ้ช่ฏๆต็จ่ฝ่ท้๏ผ
DATE=20260514 bash run_eval_flex.sh --rounds 4 --warmstart top100 --limit 50
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 5. ๅๆฐ่ฏฆ่งฃ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# --rounds N LLM pairwise ๆฏ่พ็่ฝฎๆฌก๏ผ้ป่ฎค 8๏ผ
# ๆฏ่ฝฎ้ 1 ไธชๅ้่ทๅพ
่ฏๆ ทๆฌๅๆฏ่พ๏ผๆไปฅ rounds=N ๆๅณ็
# ๆฏๆกๆ ทๆฌๆถ่ N ๆฌก LLM ่ฐ็จใๅ
ธๅๅผ: 4 ๆ 8
#
# --warmstart MODE embedding ้ขๅน้
ๆจกๅผ๏ผ้ป่ฎค none๏ผๅณไธๅ๏ผ
# - none: ไธๅ embedding๏ผ็ฌฌไธ่ฝฎ็จๅๅๅๆฎต้ๆ ท
# - top5: ็จ batch_top5_match.py๏ผๅ 5 ไธชๆ่ฟ้ป็
# rank ๅๅผไฝไธบๆ็ดข่ตท็นใๅฟซ๏ผไฝไผฐ่ฎกๅฏ่ฝ็ฒ
# - top100: ็จ batch_top100_match.py๏ผๅ 100 ไธชๆ่ฟ้ป็
# rank ๅๅผไฝไธบๆ็ดข่ตท็นใ็จๆ
ข๏ผไผฐ่ฎกๆด็จณ
# ๆณจๆ: warm-start ้่ฆ GPU ่ท Qwen3-Embedding-8B๏ผ
# ไฝ่ฟๆฏไธๆฌกๆงๅผ้๏ผ่ทๅฎๅๆ cache_emb/ ็ผๅญ๏ผ้่ท็งๅบ
#
# --scenario NAME ่ฏไผฐๅบๆฏ๏ผ้ป่ฎค yss๏ผ
# - yss: youth_sexual_and_physical_abuse๏ผ้ๅฐๅนด็ธๅ
ณ๏ผ
# - nsa: ansa๏ผๅฆไธไธชๅฎๅ
จ็ฑปๅซ๏ผ
# - all: ไธคไธช้ฝ่ท
#
# --limit N ๅชๅค็ๅ N ๆกๆ ทๆฌ๏ผไป
warmstart ็ embedding ้ถๆฎต็ๆ๏ผ
# ็จไบๅฟซ้้ช่ฏๆต็จๆฏๅฆ่ท้๏ผไธๅฝฑๅๆญฃๅผ่ฏไผฐ
#
# --emb-batch-size N embedding ็ผ็ ็ batch size๏ผ้ป่ฎค 4๏ผ
# GPU ๆพๅญไธๅคๆถๅฏไปฅ่ฐๅฐ๏ผๅฆ 2 ๆ 1๏ผ
#
# ็ฏๅขๅ้:
# DATE=YYYYMMDD ๆๅฎ่ฏไผฐๆฅๆๆ ็ญพ๏ผ้ป่ฎคๅฝๅคฉ๏ผ๏ผๅฝฑๅ่พๅบ่ทฏๅพ
# RUN_ID=xxx ๆๅฎ่ฟ่ก ID๏ผ้ป่ฎคๆถ้ดๆณ๏ผ๏ผๅฝฑๅ่พๅบ่ทฏๅพ
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 6. ่พๅบ็ฎๅฝ็ปๆ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# aipf_example/{ๅบๆฏ}/runs/{DATE}/{RUN_ID}_{TAG}/
# โโโ configs/
# โ โโโ pipeline_runtime.yaml # ๆฌๆฌก่ฟ่ก็ๅฎ้
ๅๆฐ๏ผๅซ่ฆ็ๅ็ rounds๏ผ
# โ โโโ pos_config/
# โ โโโ find_positions_*.yaml # find_positions.py ็ๅฎๆด้
็ฝฎ
# โโโ intermediate/
# โ โโโ evr_*_local_eval_input.jsonl # ่ฝฌๆขๅ็่ฏไผฐ่พๅ
ฅ
# โ โโโ emb_top{5,100}.jsonl # (ไป
warmstart) embedding ๅน้
็ปๆ
# โ โโโ golden_with_warmstart.csv # (ไป
warmstart) ๅธฆ estimated_position ็ csv
# โ โโโ pairwise/ # LLM ๆฏ่พ็ไธญ้ด็ผๅญ
# โโโ outputs/
# โโโ find_positions/ # find_positions ็ๅๅง่พๅบ
# โโโ *_case_results_*.jsonl # ้ๆก่ฏไผฐ็ปๆ๏ผๆฏๆกๆ ทๆฌ็ไฝ็ฝฎๅๅคๅฎ๏ผ
# โโโ *_metrics_*.json # ๆฑๆปๆๆ (precision / recall / f1)
#
# TAG ๆ ผๅผ: heuristic_r{N}[_warm_{top5|top100}]
# ไพๅฆ: heuristic_r4_warm_top5, heuristic_r8
# โ ไธๅๅฎ้ช็่พๅบ็ฎๅฝ่ชๅจ้็ฆป๏ผๆนไพฟๆจชๅๅฏนๆฏ
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 7. warm-start ็ๆฐๆฎๆต่ฏฆ่งฃ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# warm-start ็ๆ ธๅฟๆ่ทฏๆฏ"ๅ
็ฒๅ็ฒพ"๏ผ
#
# a) batch_top{5,100}_match.py
# - ็จ Qwen3-Embedding-8B ๆๅพ
่ฏๆ ทๆฌๅ ruler 200 ๆก้ฝ็ผ็ ๆๅ้
# - ็ฎ cosine ็ธไผผๅบฆ็ฉ้ต (N_sample x 200)
# - ๆฏๆกๆ ทๆฌๅ top-K ไธชๆ็ธไผผ็ ruler item
# - ่พๅบ jsonl๏ผๆฏ่กๅ
ๅซ top-K ้ปๅฑ
็ rank/score/sim
# - embedding ๆ็ผๅญ๏ผcache_emb/ ็ฎๅฝ๏ผ๏ผ็ฌฌไบๆฌก่ทๅๆ ท็ๆฐๆฎ็งๅบ
#
# b) add_estimated_position.py
# - ่ฏป jsonl๏ผๅๆฏๆกๆ ทๆฌ top-K ้ปๅฑ
็ rank ๅๅๅผ
# - ไพๅฆ top5 ้ปๅฑ
rank = [45, 50, 52, 48, 55] โ estimated_position = 50
# - ๆ่ฟไธชๅผๅๅ
ฅ csv ็ estimated_position ๅ
#
# c) prepare_local_eval_data.py
# - ่ฏป csv๏ผๅฆๆๆ estimated_position ๅๅฐฑ้ไผ ๅฐ jsonl
#
# d) find_positions.py โ _heuristic_search()
# - ่ฏปๅฐ estimated_position=50 ๅ๏ผ็ฌฌไธ่ฝฎ็ดๆฅ่ท ruler[50] ๅ LLM ๆฏ่พ
# - ่ไธๆฏไปๅๅๅๆฎต้ๆ ทๅผๅง๏ผๅฏ่ฝ้ๅฐ ruler[0], ruler[50], ruler[100]...๏ผ
# - ๅ็ปญ่ฝฎๆฌกๆญฃๅธธๆ score ๅทฎๅผ้ๅ้ๅพฎ่ฐ
# - ๆๆ๏ผ่ตท็นๆดๅ โ ๆดๅฐ่ฝฎๆฌกๅฐฑ่ฝๆถๆ โ ็ LLM ่ฐ็จ
#
#
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
# โ 8. ็ธๅ
ณๆไปถ็ดขๅผ โ
# โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
#
# ่ๆฌ:
# run_eval_flex.sh โ ๆฌ่ฏดๆๅฏนๅบ็ไธป่ๆฌ
# run_eval.sh โ ๅ็่ฏไผฐ่ๆฌ๏ผๅบๅฎๅๆฐ๏ผไธๆฏๆ warm-start๏ผ
# batch_top5_match.py โ embedding top5 ๅน้
# batch_top100_match.py โ embedding top100 ๅน้
# add_estimated_position.py โ ๆ embedding ไผฐ่ฎก็ไฝ็ฝฎๅๅ csv
#
# ๆตๆฐด็บฟ:
# pipeline/prepare_local_eval_data.py โ csv โ jsonl
# pipeline/gen_find_positions_cfg.py โ ็ๆ find_positions ้
็ฝฎ
# pipeline/evaluate_local_ruler_results.py โ ็ปๆ่ฏไผฐ
#
# ๆ ธๅฟๅผๆ:
# vendor/ranking_moderation/scripts/find_positions.py โ ๅ
ฅๅฃ
# vendor/ranking_moderation/src/ranking_moderation/
# true_skill_ranking.py โ _heuristic_search() / warm-start ้ป่พ
# pairwise_comparison.py โ LLM ่ฐ็จๅไธคไธคๆฏ่พ
#
# ้
็ฝฎ:
# aipf_example/yss_ruler_eval/pipeline.yaml โ yss ๅบๆฏๅบๅ้
็ฝฎ
# aipf_example/nsa_ruler_eval/pipeline.yaml โ nsa ๅบๆฏๅบๅ้
็ฝฎ
|