AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署_xinference和ollama-CSDN博客 | X·myLog

Created

Jun 17, 2024 09:11 AM

Favorite

Favorite

Priority

URL

https://blog.csdn.net/weixin_48007632/article/details/138531565

备注

推荐

🌟🌟🌟🌟

类型

模型部署

阅读量2k 收藏 31

点赞数 66

分类专栏： AI智能体研发之路-工程篇文章标签：语言模型人工智能自然语言处理 python docker AIGC

版权

AI智能体研发之路-工程篇专栏收录该内容

6 篇文章 6 订阅

订阅专栏

博客导读：

《AI—工程篇》

AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

AI智能体研发之路-工程篇（五）：大模型推理服务框架LocalAI一键部署

《AI—模型篇》

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

目录

二.一行代码完成Xinference本地部署

三.两行代码完成Xinference分布式部署

四.开箱即用webui

2.Running Models

2.1测试qwen1.5-chat

2.2模型存储路径

3.Register Model

4.Cluster Information

五.模型使用

一.引言

上一篇大语言模型推理服务框架—Ollama介绍了Ollama，Ollama以出色的设计一行命令完成推理框架部署，一行命令完成大模型部署，模型的下载不依赖梯子，速度非常快，大幅提升模型部署效率，同时，当有多卡GPU时，Ollama可以自动将模型分片到各个GPU上，博主使用V100显卡（单卡32G显存）部署llama3 70B（预计需要40G显存），自动完成了显存分配。

今天来介绍一下Xinference，与Ollama比较，Xinference自带Webui与用户交互更加友好，只需点一下所需要的模型，自动完成部署，同时，Xinference在启动时可以指定Modelscope社区下载模型，对于无法登陆抱抱脸的伙伴，可以大幅提升模型下载效率。

这里还是想说两句，大模型领域，美帝目前确实是领先的，我们能做的只能是努力追赶，但在追赶的过程中发现，好多优秀的大模型领域开源项目，都是默认配置hugging face的，一方面是下载模型时间甚至超过了熟悉项目本身，另一方面是压根连不上导致项目跑不起来，导致在这片土地上水土不服。当然对在这片热土上生存的企业及工程师，可能学习门槛的提升，也是一件好事，天热的技术护城河哈哈

二.一行代码完成Xinference本地部署

docker run -it：启动docker容器并在内部使用终端交互

-name xinference：指定docker容器名字为xinference，如不设置随机生成

d：后台运行，如果不设置会进入到docker容器内

p：9997:9997，宿主机端口:docker容器端口

e XINFERENCE_MODEL_SRC=modelscope：指定模型源为modelscope，默认为hf

e XINFERENCE_HOME=/workspace：指定docker容器内部xinference的根目录

v /yourworkspace/Xinference:/workspace：指定本地目录与docker容器内xinference根目录进行映射

-gpus all：开放宿主机全部GPU给container使用

xprobe/xinference:latest：拉取dockerhub内xprobe发行商xinference项目的最新版本

xinference-local -H 0.0.0.0：container部署完成后执行该命令

三.两行代码完成Xinference分布式部署

master部署：

work部署：

四.开箱即用webui

浏览器打开：http://123.123.123.123:9997/ui/#/launch_model/llm

1.Launch Model

启动模型，包含语言模型、图片模型、语音模型、自定义模型，提供了模型搜索框，基本主流模型都已经收录。

notion image

以qwen1.5为例，搜索qwen1.5选择chat版本：

notion image

Model Format（模型格式）：包含pytorch、gptq、awq、ggufv2等

Model Size（模型尺寸）：包含0.5B～110B全尺寸模型，

Quantization（模型量化）：包含4位、8位、不量化等

N-GPU（使用GPU数）：可以自动或手动选择使用GPU数

Replica（副本数量）：提供服务的副本数量

点击下面的小火箭，发射（启动）模型模型，会去modelscope上自动下载模型并启动

2.Running Models

模型下载启动后，在Running Models内可查看，可以点击Actions下面的窗口弹出测试UI

notion image

ID：模型id，后面在调用的时候会用到

Name：模型name，后面在调用的时候会用到

Address：模型部署的container端口，后面只会用到宿主机的地址和端口，container状态下后面不需要

GPU Indexes：GPU索引，Xinference框架会自动根据GPU资源情况切分模型部署在多张卡上

Size，Quantization：模型尺寸与量化位数

2.1测试qwen1.5-chat

notion image

2.2模型存储路径

在启动docker container时，指定了container根目录并且指定了宿主机关联路径：

e XINFERENCE_HOME=/workspace

v /yourworkspace/Xinference:/workspace

这样不用登陆container在宿主机本地也可以查看下载到的模型

3.Register Model

你也可以注册自己下载或微调后的模型：

notion image

只需要配置模型名、模型格式、上下文长度、模型尺寸、模型路径等

注册完成后在Launch Model — Custom Models 内启动即可。

4.Cluster Information

这里会展示集群Supervisor节点和worker节点的数量以及具体CPU、GPU使用情况，方便管理。

五.模型使用

参考上一篇Ollama，我们可以使用curl或者dify平台调用Xinference部署的推理服务，

DIFY：只需要配置模型名称、服务器URL、模型UID，其中模型名称和模型UID在Running Models列表中可以查到，服务器URL是http://宿主机host:port。记得带http://否则会报错。

notion image

CURL：

与OpenAI一样的post请求：

返回：

OpenAI兼容的API：

Xinference 提供了与 OpenAI 兼容的 API，所以可以将 Xinference 运行的模型直接对 OpenAI模型进行替代

六.总结

本文简要讲述了一行代码完成Xinference本地部署以及两行代码完成Xinference分布式部署以及webui和接口调用，其中快捷部署、极为友好的webui、可配modelscope以及提供兼容OpenAI的API等诸多优点，实属良心之作。

真诚的希望通过写博客的方式将自己涉猎过的大模型开源项目分享给大家，由于个人经历有限，不能保证每篇文章都写的特别深入，但尽量保证内容自己实际操作过，避免大家重复踩坑。如果想了解更多关于Xinference大模型推理框架的内容，可参考官方文档：Xinference官方文档。

最后，还是很期待大家关注、点赞、评论、收藏噢，您的鼓励是我持续码字的动力！

如果您对AI感兴趣，可以接着看看我的其他文章：

《AI—工程篇》

AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

AI智能体研发之路-工程篇（五）：大模型推理服务框架LocalAI一键部署

《AI—模型篇》

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

关注博主即可阅读全文

66

31

1

专栏目录

《AI大模型》--2023全球智能汽车AI挑战赛——赛道一：AI大模型检索问答， 75+ baseline.zip

03-22

人工智能学习总结成果，希望可以帮到大家，有疑问欢迎随时沟通~ 人工智能学习总结成果，希望可以帮到大家，有疑问欢迎随时沟通~ 人工智能学习总结成果，希望可以帮到大家，有疑问欢迎随时沟通~ 人工智能学习总结成果，希望可以帮到大家，有疑问欢迎随时沟通~ 人工智能学习总结成果，希望可以帮到大家，有疑问欢迎随时沟通~

Python人工智能之路-第二篇:算法实在太难了有现成的直接用吧

02-24

本节内容预备资料:1.FFmpeg:链接：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg密码：w6hk2.baidu-aip:pipinstallbaidu-aip终于进入主题了,此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署 最新发布

人工智能领域博客

1944

本文首先结合自己的工作写了一些对Agent AI智能体的见解，接着介绍了Dify框架快捷部署的过程，最后阐述了Dify框架的特点。个人认为Dify的发展会让Agent AI智能体开发提效，涌现更多有趣有价值的AI应用。

部署快捷、使用简单、推理高效！大模型部署和推理框架 Xinference 来了！

2201_75499313的博客

4174

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

人工智能领域博客

1188

一行代码完成Ollama本地部署，提升大语言模型推理服务部署与效果评测效率。

【xinference】（5）：在autodl上，使用xinference部署sdxl-turbo模型，效果好太多了，模型的进步效果更好，图像更加细腻，需要下载52G文件，显存需要20G左右

新的模型生成的图片确实非常不错。但是随机比较大，需要多运行几次才能找到比较好的图片。相同的咒语生成的图片也是每次都不一样。新模型确实比之前的好太多了，坐等出中文模型。

自然语言处理: 第十四章Xinference部署

项目地址: Xorbitsai/inference正如同Xorbits Inference（Xinference）官网介绍是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。介绍这个项目主要是为了后面在dify能够快速部署接入AP

【xinference部署大模型超详细教程 gemma-it为例子】

qq_39749966的博客

1878

【代码】【xinference部署大模型超详细教程 gemma-it为例子】

Xorbits Inference比Ollama更强大的模型部署与推理框架

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。

Docker容器

AI大模型报告：大模型时代的智能运维（AIOps）- pdf全文

01-18

大模型时代的智能运维（AIOps）是指利用人工智能技术来提升运维效率和质量的方法。随着企业业务的快速发展和数字化转型的加速，传统的运维方式已经无法满足需求，而AIOps可以通过对大量数据的分析和处理，自动识别和...

学习笔记：从零开始了解AI大模型 - 概念篇：一文带你走进大模型世界

09-20

学习笔记：从零开始了解AI大模型 - 概念篇：一文带你走进大模型世界

xinference - 大模型分布式推理框架

Xinference 也允许从其他模型托管平台下载模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。如果你的第1个cuda 被占用，又设置 N-GPU 为 auto，可能会报如下错误。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。模型缓存地址，我使用 modelscope 下载模型，被缓存到。

Dify学习笔记-模型配置(五)

大数据知识梳理

4357

Dify学习笔记-模型配置

Windows 安装 Xinference

Windows 安装 Xinference

Meta最新模型LLaMA详解（含部署+论文）

学姐带你玩AI的博客

9709

本课程来自深度之眼《大模型——前沿论文带读训练营》公开课，部分截图来自课程视频。向量空间中词表示的有效估计Hugo Touvron等Meta AI2023 arxivChatGPT相关工具：https://github.com/pengwei-iie/A_survey_and_tools_of_ChatGPT不过貌似好多都很麻烦，要部署，直接能用的没看见。。。「什么是LLaMA：」

FastGPT + Xinference + OneAPI：一站式本地 LLM 私有化部署和应用开发

南七小僧的学海无涯

1906

上述步骤已经利用 API 的返回拼装出了含有某个城市查询天气情况的所有信息，我们用 “AI对话” 模块来总结回复，记得将对话模型切换为 Qwen。

【xinference】（3）：在autodl上，使用xinference部署whisper-tiny音频模型，并成功将语音转换成文本，测试成功，还支持音频直接翻译成英文

确实可以运行音频大模型。可以将音频文件转换成文本。可以做啥呢？可以直接录用转文字，或者做字幕。transcriptions 是音频转文本translations 可以直接将音频翻译成英文。使用large 模型就可以翻译：本列表列出香港航空的航点 > 翻译成：还集成了翻译模块。

大语言模型和自然语言模型区别

04-29

大语言模型和自然语言模型都是指用机器学习的方法来处理自然语言的模型。其中，大语言模型通常指的是参数数量非常大的模型，例如OpenAI的GPT-3模型就有175亿个参数。而自然语言模型则是一个更加通用的术语，包括了各种不同规模和结构的自然语言处理模型。虽然大语言模型和自然语言模型的范围存在一定的区别，但它们之间也有一些共同点。比如，它们都需要通过大量的自然语言数据来进行训练，以提高其在自然语言处理任务上的表现。此外，大语言模型与自然语言模型之间最大的区别在于它们所处理的数据量和难度。大语言模型需要处理海量的文本数据，并且需要具有非常强大的推理和生成能力，以便在各种不同的自然语言处理任务中取得好的表现。而自然语言模型则可以是更加轻量级的模型，主要应用于一些较为简单的自然语言处理任务，如情感分析、文本分类等。

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

关于我们

招贤纳士

商务合作

寻求报道

400-660-0108

kefu@csdn.net

在线客服

工作时间 8:30-22:00

公安备案号11010502030143

京ICP备19004658号

京网文〔2020〕1039-165号

经营性网站备案信息

北京互联网违法和不良信息举报中心

家长监护

网络110报警服务

中国互联网举报中心

Chrome商店下载

账号管理规范

版权与免责声明

版权申诉

出版物许可证

营业执照

©1999-2024北京创新乐知网络技术有限公司

LDG_AGI 码龄4年企业员工 39 原创 20 周排名 1万+ 总排名 6万+ 访问等级 3914 积分 5049 粉丝 1963 获赞 1656 评论 1712 收藏私信关注 热门文章 • 【机器学习】Qwen2大模型原理、训练及推理部署实战 5992 • 【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战 4935 • 【机器学习】基于YOLOv10实现你的第一个视觉AI大模型 4577 • 【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战 4316 • 【机器学习】QLoRA：基于PEFT亲手微调你的第一个AI大模型 3543 分类专栏 • Python 11篇 • AI智能体研发之路-工程篇 6篇 • Transformers 7篇 • AI智能体研发之路-模型篇 9篇 • PyTorch 2篇 最新评论 • 【python】python指南（十二）：Json与dict、list互相转换 MUKAMO: 这篇博文为Python开发者提供了一份关于如何在Python中实现JSON与字典、列表之间互相转换的详细指南。通过掌握这些转换技巧，开发者可以更方便地处理JSON数据，并在Python应用程序中有效地使用它。 • 【机器学习】基于YOLOv10实现你的第一个视觉AI大模型天才大狗b: 这不就是普通不过的yolo，v几都能实现，这和大模型有什么关系 • 【python】python指南（十二）：Json与dict、list互相转换 LeoToJavaer: 博主的文章细节很到位，兼顾实用性和可操作性，内容和细节都很到位，期待博主持续带来更多好文 • 【python】python指南（十二）：Json与dict、list互相转换猫头虎: 🐅🐾🚀 结构清晰，内容丰富，条理分明！这篇博客非常值得一读。猫头虎在线等待更新！📡 • 【python】python指南（十二）：Json与dict、list互相转换 ✿༺小陈在拼命༻✿: 干货啊，这篇博客深入探讨了机器学习的多面世界，涵盖了从理论到应用和未来的展望。内容详实，讲解清晰，对于机器学习的新手来说非常有帮助。作者不仅介绍了机器学习的基础理论，还分享了一些实际应用案例和未来趋势的预测，让人受益匪浅。感谢作者的分享！ 大家在看 • 网络安全系统教程+渗透测试+学习路线（自学笔记） • Codesys 编程实现随机数字+仿照rand()原理+代码下载 336 • Python之eval函数的使用 1 • python中进程的几种创建方式 • SSH配置、跨主机上传下载、Wrapper访问控制实验操作步骤 最新文章 • 【python】python指南（十二）：Json与dict、list互相转换 • 【python】python指南（十一）：静态类型注解之Optional • 【python】python指南（十）：静态类型注解之Union 2024年39篇目录 1. 一.引言 2. 二.一行代码完成Xinference本地部署 3. 三.两行代码完成Xinference分布式部署 4. 四.开箱即用webui 5. 五.模型使用 6. 六.总结

notion image

Loading...

Alan_Hsu

Alan_Hsu

许心志我在蓝湛阔天海中定自主宰

统计

文章数:

147

Latest posts

Mac｜csv打开乱码问题

Prompt 工程｜样例驱动的渐进式引导法：利用 AI 高效设计提示词，生成预期内容

2024_周报 #33

2024_周报 #32

8月自律计划 new

2024_月报 #7月份