chgpt实操评测的简单介绍

导读：

实操用Langchain,vLLM,FastAPI构建一个自托管的Qwen-7B-Chat1、部署模型并使用FastAPI启动Web服务，处理请求并生成LLM响应。API在端...

实操用Langchain,vLLM,FastAPI构建 一个自托管的Qwen-7B-Chat

1、部署模型并使用FastAPI启动 web 服务，处理请求并生成LLM响应。API在端口5001上运行，确保离线推理过程已经完成，无需重复下载模型。借助LangChain增加知识库功能，通过FAiss库构建向量数据库，并利用embedding模型将知识转换为向量形式。导入知识后，将向量数据库集成到代码中，引导LLM考虑背景知识。

2、要实操构建一个自托管的微调模型LLama38B，利用unsloth、vLLM、FastAPI、Open WebUI，可以按照以下步骤进行：选择合适的GPU 推荐配置：选择A100 80G PCIe实例，以确保在推理中获得更好的准确性和更高的吞吐量。