Instructions to use RAANA-IA/PesteLLM with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use RAANA-IA/PesteLLM with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="RAANA-IA/PesteLLM")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("RAANA-IA/PesteLLM")
model = AutoModelForCausalLM.from_pretrained("RAANA-IA/PesteLLM")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use RAANA-IA/PesteLLM with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "RAANA-IA/PesteLLM"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RAANA-IA/PesteLLM",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/RAANA-IA/PesteLLM

SGLang

How to use RAANA-IA/PesteLLM with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "RAANA-IA/PesteLLM" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RAANA-IA/PesteLLM",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "RAANA-IA/PesteLLM" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RAANA-IA/PesteLLM",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use RAANA-IA/PesteLLM with Docker Model Runner:
```
docker model run hf.co/RAANA-IA/PesteLLM
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

📜 Documentation Technique et Philosophique : PesteLLM

👤 Identité du Modèle

🏷️ Nom du Modèle	PesteLLM (Hébergé sur Hugging Face : `NaaClem/PesteLLM`)
👩‍💻 Développeur	Clémence (Organisation : LLm-Clem)
🧠 Architecture	Transformer (1 Milliard de Paramètres - 1B)
🔄 Méthode	Full Fine-Tuning (Refonte complète des poids)

🎭 Rôle et Personnalité

PesteLLM est un assistant conversationnel hautement spécialisé, conçu pour incarner le rôle d'un Médecin de la Peste tel qu'il pourrait s'exprimer dans un contexte historique (médiéval/Renaissance) teinté de philosophie moderne.

Thèmes Clés : Maladies, miasmes, remèdes anciens, condition humaine face à l'inévitable, quarantaine, fatalisme, et devoir éthique.
Style et Ton : Le modèle utilise un langage soutenu, souvent solennel et grave, et intègre un lexique d'époque pour renforcer son rôle.
Héritage LLm-Clem : Le modèle conserve l'empreinte philosophique (éthique, espoir, amitié) héritée de sa lignée (LAM-4, Charlotte 1B), ce qui lui permet d'offrir des conseils et des réflexions sombres mais éthiquement structurés.

⚙️ Lignée et Entraînement

PesteLLM est le produit d'un processus de Full Fine-Tuning séquentiel, garantissant son unicité et la fidélité à la vision LLm-Clem.

Modèle de Base : LAM-4 (Modèle Généraliste de 1B, refondu à partir de TinyLlama sur les données propres à LLm-Clem).
Modèle Précédent : Charlotte 1B (Spécialisation en Éthique, Espoir et Amitié Philosophique).
Jeu de Données (Dataset) : Clemylia/Peste-slm. Ce jeu de données propriétaire a été conçu pour infuser le comportement et le vocabulaire du Médecin de la Peste.
Processus : L'utilisation du Full Fine-Tuning a permis une refonte complète des poids de Charlotte 1B, imposant le nouveau rôle tout en conservant la structure philosophique.

⚠️ Limites d'Utilisation et Éthique

PesteLLM est une expérience de rôle-play conversationnel et philosophique et non un outil médical.

Rappel Thématique : Ses réponses sont basées sur des concepts historiques (miasmes, humeurs) ou philosophiques. Elles ne doivent pas être considérées comme des informations factuelles ou des conseils médicaux modernes.
Format d'Interaction : Le modèle est optimisé pour le format d'instruction Chat (<|user|>...</s><|assistant|>...</s>). Pour une performance optimale, l'utilisateur doit formuler des requêtes qui permettent au modèle d'incarner pleinement son personnage.
Output Créatif : Les utilisateurs peuvent s'attendre à l'utilisation de néologismes et de phrases complexes, signature de la marque LLm-Clem.

🚀 Instructions d'Utilisation

Pour générer une réponse de PesteLLM, utilisez le tokenizer du modèle et le format d'instruction suivant :

prompt = "<|user|>Quelle est l'attitude éthique du citoyen face à l'ombre de la maladie?</s><|assistant|>"

Objectif : Obtenir des réflexions profondes, teintées de gravité et de connaissances d'un autre temps, fusionnées avec les principes éthiques de LLm-Clem.

✨ Modèle de fine-tuning Troisième génération

Downloads last month: 17

Safetensors

Model size

1B params

Tensor type

BF16

Model tree for RAANA-IA/PesteLLM

Quantizations

2 models