Instructions to use softjapan/softjapan-model-gguf with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- llama-cpp-python
How to use softjapan/softjapan-model-gguf with llama-cpp-python:
# !pip install llama-cpp-python from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="softjapan/softjapan-model-gguf", filename="softjapan-model-f16.gguf", )
llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] ) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- llama.cpp
How to use softjapan/softjapan-model-gguf with llama.cpp:
Install from brew
brew install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf softjapan/softjapan-model-gguf:F16 # Run inference directly in the terminal: llama-cli -hf softjapan/softjapan-model-gguf:F16
Install from WinGet (Windows)
winget install llama.cpp # Start a local OpenAI-compatible server with a web UI: llama-server -hf softjapan/softjapan-model-gguf:F16 # Run inference directly in the terminal: llama-cli -hf softjapan/softjapan-model-gguf:F16
Use pre-built binary
# Download pre-built binary from: # https://github.com/ggerganov/llama.cpp/releases # Start a local OpenAI-compatible server with a web UI: ./llama-server -hf softjapan/softjapan-model-gguf:F16 # Run inference directly in the terminal: ./llama-cli -hf softjapan/softjapan-model-gguf:F16
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake --build build -j --target llama-server llama-cli # Start a local OpenAI-compatible server with a web UI: ./build/bin/llama-server -hf softjapan/softjapan-model-gguf:F16 # Run inference directly in the terminal: ./build/bin/llama-cli -hf softjapan/softjapan-model-gguf:F16
Use Docker
docker model run hf.co/softjapan/softjapan-model-gguf:F16
- LM Studio
- Jan
- vLLM
How to use softjapan/softjapan-model-gguf with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "softjapan/softjapan-model-gguf" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "softjapan/softjapan-model-gguf", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/softjapan/softjapan-model-gguf:F16
- Ollama
How to use softjapan/softjapan-model-gguf with Ollama:
ollama run hf.co/softjapan/softjapan-model-gguf:F16
- Unsloth Studio new
How to use softjapan/softjapan-model-gguf with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for softjapan/softjapan-model-gguf to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for softjapan/softjapan-model-gguf to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for softjapan/softjapan-model-gguf to start chatting
- Pi new
How to use softjapan/softjapan-model-gguf with Pi:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf softjapan/softjapan-model-gguf:F16
Configure the model in Pi
# Install Pi: npm install -g @mariozechner/pi-coding-agent # Add to ~/.pi/agent/models.json: { "providers": { "llama-cpp": { "baseUrl": "http://localhost:8080/v1", "api": "openai-completions", "apiKey": "none", "models": [ { "id": "softjapan/softjapan-model-gguf:F16" } ] } } }Run Pi
# Start Pi in your project directory: pi
- Hermes Agent new
How to use softjapan/softjapan-model-gguf with Hermes Agent:
Start the llama.cpp server
# Install llama.cpp: brew install llama.cpp # Start a local OpenAI-compatible server: llama-server -hf softjapan/softjapan-model-gguf:F16
Configure Hermes
# Install Hermes: curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup # Point Hermes at the local server: hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default softjapan/softjapan-model-gguf:F16
Run Hermes
hermes
- Docker Model Runner
How to use softjapan/softjapan-model-gguf with Docker Model Runner:
docker model run hf.co/softjapan/softjapan-model-gguf:F16
- Lemonade
How to use softjapan/softjapan-model-gguf with Lemonade:
Pull the model
# Download Lemonade from https://lemonade-server.ai/ lemonade pull softjapan/softjapan-model-gguf:F16
Run and chat with the model
lemonade run user.softjapan-model-gguf-F16
List all available models
lemonade list
softjapan-model-gguf
本リポジトリは、softjapan/softjapan-model(ベース: Qwen/Qwen2.5-3B-Instruct)を GGUF 形式へ変換した配布用アーティファクトです。llama.cpp 系ツールや llama-cpp-python 等、GGUF 対応ランタイムで手軽に推論できます。
注意: ここに含まれるのは 推論用の重み(GGUF) です。学習用の Hugging Face 形式(
config.json,model.safetensorsなど)は別リポジトリ(softjapan/softjapan-model)をご参照ください。
モデルの由来 / 目的
- ベースモデル: Qwen/Qwen2.5-3B-Instruct
- チューニング: LoRA/PEFT による微調整(
softjapan/softjapan-model)を GGUF へ変換 - 想定用途: 研究・検証・デモ。実運用やクリティカル用途は非推奨です。
- 特性: 応答時に自称として「softjapan」を用いる傾向があります(元モデルのチューニング方針による)。
同梱ファイル
| ファイル名 | 形式 | 概要 | 用途の目安 |
|---|---|---|---|
softjapan-model-f16.gguf |
f16 | 非量子化(16-bit float) | 最高精度/検証 |
softjapan-model-q8_0.gguf |
q8_0 | 8-bit 量子化(互換性の高い方式) | 精度とサイズのバランス |
量子化方式はランタイムやメモリに応じて選択してください。軽量化をさらに重視する場合は、
llama.cppの新しい量子化(例: q4_k_m など)で再変換してください。
使い方
1) 取得方法
# (推奨) Git LFS 経由
git lfs install
git clone https://huggingface.co/softjapan/softjapan-model-gguf
cd softjapan-model-gguf
# もしくは huggingface-cli
# pip install -U huggingface_hub
huggingface-cli download softjapan/softjapan-model-gguf softjapan-model-q8_0.gguf --local-dir .
2) llama.cpp(CLI)
# ビルド例(省略可)
# make -j
# 単発プロンプト
./main -m softjapan-model-q8_0.gguf \
-p "以下の質問に日本語で簡潔に答えてください。Q: 富士山の標高は?" \
-n 256 --temp 0.7 --top-p 0.9
チャット(ChatML 互換プロンプト)例
Qwen2.5 系は ChatML 風のテンプレート(<|im_start|>role ... <|im_end|>)が有効です。
llama.cpp のビルドによっては --chat-template オプションで Qwen/ChatML テンプレートを指定できます(サポート無い場合は手動で整形してください)。
# (テンプレ対応ビルドの場合の一例)
./main -m softjapan-model-q8_0.gguf \
--chat-template "qwen2" \
-n 256 --temp 0.7 --top-p 0.9
手動で与える場合(例):
<|im_start|>system
あなたは有能な日本語アシスタントです。簡潔かつ正確に回答してください。<|im_end|>
<|im_start|>user
あなたは誰ですか?<|im_end|>
<|im_start|>assistant
3) llama-cpp-python
# pip install -U llama-cpp-python # (環境に応じて OpenBLAS/Metal/CUDA 版を選択)
from llama_cpp import Llama
llm = Llama(
model_path="softjapan-model-q8_0.gguf",
n_ctx=4096,
n_threads=8,
)
prompt = """<|im_start|>system
あなたは有能な日本語アシスタントです。簡潔かつ正確に回答してください。<|im_end|>
<|im_start|>user
あなたは誰ですか?<|im_end|>
<|im_start|>assistant
"""
out = llm(
prompt,
max_tokens=256,
temperature=0.7,
top_p=0.9,
stop=["<|im_end|>"]
)
print(out["choices"][0]["text"].strip())
推論パラメータの目安
max_tokens: 128–512temperature: 0.6–0.8top_p: 0.8–0.95repeat_penalty(対応ランタイムのみ): 1.05–1.15- 停止条件:
"<|im_end|>"をstopに指定すると過剰出力が減ります。
既知の制約
- 出力は誤りを含む可能性があります。重要判断を要する用途には使用しないでください。
- ベースやテンプレートが異なるランタイム設定では品質が変動します。
q8_0は精度維持に優れますが、より小さいフットプリントが必要な場合は別量子化での再変換をご検討ください。
ライセンス / 利用規約
- ライセンス: Apache-2.0
- ベースモデル(Qwen/Qwen2.5-3B-Instruct)および依存する各プロジェクトのライセンス・利用規約に従ってください。
- 本モデルは研究・検証目的で提供されます。利用に伴う一切の責任は利用者にあります。
謝辞
- Qwen チームおよびコミュニティ
- llama.cpp / ggml / gguf の開発コミュニティ
- Hugging Face エコシステム
- Downloads last month
- 13
8-bit
16-bit