Instructions to use moka-ai/m3e-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use moka-ai/m3e-base with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("moka-ai/m3e-base") sentences = [ "The weather is lovely today.", "It's so sunny outside!", "He drove to the stadium." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] - Notebooks
- Google Colab
- Kaggle
embedding维度问题
向量化之后的维度为什么是768,这个维度更大之后效果会更好吧,可以调吗?
维度更大可能会更好,注意是可能,因为有论文测试过,在 embedding 上做 PCA 降维后,效果反而提高了。可以通过微调进行调整,需要添加一个新的 Linear 头。
维度更大可能会更好,注意是可能,因为有论文测试过,在 embedding 上做 PCA 降维后,效果反而提高了。可以通过微调进行调整,需要添加一个新的 Linear 头。
如果想对m3e输出的纬度降维的话可以直接在配置文件里修改吗
不能,如果想要对 m3e 输出进行降维的话,需要额外自己添加一部分代码,比如做 PCA 这种,只修改配置文件没有办法生效。
不能,如果想要对 m3e 输出进行降维的话,需要额外自己添加一部分代码,比如做 PCA 这种,只修改配置文件没有办法生效。
也就是说,在config文件里直接把768改为我想要的512没有用,需要针对输出的768纬度的数据再写个PCA脚本进行处理得到512这样才有效吗,还有一个问题就是降维之后评测脚本还能用吗
对的,只有这样才有效,降维之后评测脚本也可以使用。
维度更大可能会更好,注意是可能,因为有论文测试过,在 embedding 上做 PCA 降维后,效果反而提高了。可以通过微调进行调整,需要添加一个新的 Linear 头。
还有一个问题想请教,pca降维怎么对一组数据进行降维呢,因为每一个数据是(1,768)这样的,只能降到1维吧
维度更大可能会更好,注意是可能,因为有论文测试过,在 embedding 上做 PCA 降维后,效果反而提高了。可以通过微调进行调整,需要添加一个新的 Linear 头。
还有一个问题想请教,pca降维怎么对一组数据进行降维呢,因为每一个数据是(1,768)这样的,只能降到1维吧
比如batch=96,那么测试的时候得到的向量化结果就是(96,768),用pca降维的方法是直接把96个作为一组吗,这样只能降到96以下
维度更大可能会更好,注意是可能,因为有论文测试过,在 embedding 上做 PCA 降维后,效果反而提高了。可以通过微调进行调整,需要添加一个新的 Linear 头。
还有一个问题想请教,pca降维怎么对一组数据进行降维呢,因为每一个数据是(1,768)这样的,只能降到1维吧
这个embedding做pca的论文有参考的吗