Hello !

J'aimerais éviter d'avoir plusieurs workers mais pouvoir améliorer le nombre de requêtes simultanées par mon app Python qui utilise Flask.

Déjà, je voulais savoir s'il était utile de faire un app.run(threaded=True) lorsqu'on lance une app Python à l'aide de GUnicorn et gthread
Code : Sélectionner tout - Visualiser dans une fenêtre à part
gunicorn -k gthread --threads=20 wsgi:app
Est-ce qu'un worker async (gevent) peut m'aider dans ce que je souhaite ? Mon application appelle Spacy qui est une lib NLP, donc pas beaucoup d'IO, juste un gros modèle chargé en mémoire au démarrage de l'app.

Merci d'avance pour vos lumières