TensorRT-LLM (NVIDIA/TensorRT-LLM) est un projet d'IA open source sur GitHub. Résumé du référentiel : TensorRT LLM fournit aux utilisateurs une API Python facile à utiliser pour définir des modèles grand langage (LLM) et prend en charge des optimisations de pointe pour effectuer des inférences efficacement sur les GPU NVIDIA. TensorRT LLM contient également des composants permettant de créer des environnements d'exécution Python et C++ qui orchestrent l'exécution de l'inférence de manière performante. Son objectif comprend les flux de travail d'ingénierie centrés sur les développeurs. Il convient à l’extension, à l’intégration et à la livraison itérative dans des flux de travail réels.
Licence
Other
Étoiles
13 515
Site officiel
https://nvidia.github.io/TensorRT-LLMFonctionnalités
- Core : TensorRT LLM fournit aux utilisateurs une API Python facile à utiliser pour définir des modèles grand langage (LLM) et prend en charge des optimisations de pointe pour effectuer des inférences efficacement sur les GPU NVIDIA. TensorRT LLM contient également des composants permettant de créer des environnements d'exécution Python et C++ qui orchestrent l'exécution de l'inférence de manière performante.
- Construit pour la génération de code, le débogage ou l'intégration technique
- Dépôt : NVIDIA/TensorRT-LLM
- Langage principal : Python
- Licence open source : Autre
- GitHub : environ 13 514 étoiles
Cas d'usage
- Prend en charge les flux de travail de création et d'itération d'ingénierie IA pour les équipes de développement
- Créer des prototypes de flux de travail d'IA internes avec TensorRT-LLM
- Valider TensorRT-LLM dans des scénarios d'ingénierie de type production
- Traduire et organiser le contenu d'apprentissage
- Pratique et révision de la langue
- Publication multilingue des supports de cours
FAQ
TensorRT-LLM (NVIDIA/TensorRT-LLM) est un projet d'IA open source sur GitHub. Résumé du référentiel : TensorRT LLM fournit aux utilisateurs une API Python facile à utiliser pour définir des modèles grand langage (LLM) et prend en charge des optimisations de pointe pour effectuer des inférences efficacement sur les GPU NVIDIA. TensorRT LLM contient également des composants permettant de créer des environnements d'exécution Python et C++ qui orchestrent l'exécution de l'inférence de manière performante. Son objectif comprend les flux de travail d'ingénierie centrés sur les développeurs. Il convient à l’extension, à l’intégration et à la livraison itérative dans des flux de travail réels.
Cas d'usage courants : Prend en charge les flux de travail de création et d'itération d'ingénierie IA pour les équipes de développement, Créer des prototypes de flux de travail d'IA internes avec TensorRT-LLM, Valider TensorRT-LLM dans des scénarios d'ingénierie de type production.