Update README.md
Browse files
README.md
CHANGED
|
@@ -29,13 +29,14 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
|
|
| 29 |
- rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
|
| 30 |
|
| 31 |
## Collect more data for retrieval-type tasks
|
| 32 |
-
1.
|
| 33 |
-
|
| 34 |
-
|
| 35 |
-
|
| 36 |
-
|
| 37 |
-
|
| 38 |
-
|
|
|
|
| 39 |
|
| 40 |
## Performance
|
| 41 |
**C_MTEB RETRIEVAL**
|
|
@@ -52,7 +53,7 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
|
|
| 52 |
| :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
|
| 53 |
| bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
|
| 54 |
| gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
|
| 55 |
-
| **chuxin-embedding** | bge-reranker-large | **64.7** |76.14 | 68.34 | 64.09 | 63.03 | 51.89 |
|
| 56 |
|
| 57 |
|
| 58 |
## Generate Embedding for text
|
|
|
|
| 29 |
- rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
|
| 30 |
|
| 31 |
## Collect more data for retrieval-type tasks
|
| 32 |
+
1. 预训练数据
|
| 33 |
+
- ChineseWebText、 oasis、 oscar、 SkyPile、 wudao
|
| 34 |
+
2. 微调数据
|
| 35 |
+
- MTP 、webqa、nlpcc、csl、bq、atec、ccks
|
| 36 |
+
3. 精调数据
|
| 37 |
+
- BGE-M3 、Huatuo26M-Lite 、covid ...
|
| 38 |
+
- LLM 合成(BGE-M3 、Huatuo26M-Lite 、covid、wudao、wanjuan_news、mnbvc_news_wiki、mldr、medical QA...)
|
| 39 |
+
|
| 40 |
|
| 41 |
## Performance
|
| 42 |
**C_MTEB RETRIEVAL**
|
|
|
|
| 53 |
| :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
|
| 54 |
| bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
|
| 55 |
| gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
|
| 56 |
+
| **chuxin-embedding(当前)** | bge-reranker-large | **64.7** |76.14 | 68.34 | 64.09 | 63.03 | 51.89 |
|
| 57 |
|
| 58 |
|
| 59 |
## Generate Embedding for text
|