新闻

零编程基础也能看懂的LLM大模型部署本地教程

小镭
2024 / 05 / 16
本文仅分享LLM部署过程和心得,所提及的程序和模型包均为官方下载地址,请自行解决网络问题,所有内容均为免费,请勿随意商用或相信任何付费下载的链接。下载网址汇总(建议在电脑端打开本文):
LM Studio程序本体:
https://lmstudio.ai/
https://lmstudio.ai/rocm (AMD平台,当前版本同为0.2.22)

模型下载:
https://huggingface.co/ (国外)
https://www.modelscope.cn/(国内)

什么是LLM大模型

LLM(Large Language Models)大模型指的是使用深度学习技术训练的、参数量达到数十亿甚至千亿级别的人工智能语言模型。这些模型能够理解和生成自然语言文本,因此在自然语言处理领域有着广泛的应用。LLM大模型其实并不是什么新鲜的事情,在一些特殊专用领域早就已经存在。通俗的说法就是,大模型是一座超大的图书馆,里面有着无数的藏书,你需要不断的往里面去添加“书籍”(训练数据),以丰富其规模,让这个大模型更加的符合提问者的需求。

复杂的LLM大模型训练过程

为什么要在本地部署LLM大模型

前面提到LLM大模型就像是一座超大的图书馆,目前网络版本的对话式AI应用,包括chatGPT、文心一言、KIMI、天工等等,背后的本质就是一个/多个LLM大模型,但是对于个人用户来说,一个更加专用的领域,一个更符合自己的语言习惯、使用习惯的模型,往往会比什么都懂的笼统回答要实用得多,例如写论文、写小说、写程序等等,在经过更多的训练后,回答也会更加贴合个人的需求。大模型之所以“大”,是因为它们包含大量的参数,这些参数是模型在训练过程中学习到的,用以帮助模型理解和生成文本。这些参数通常包括词汇的嵌入、神经网络的权重等。

在使用网络对话应用的时候,我们需要注册账号,然后创建不同的对话,以此来训练自己的模型,在本地部署大模型的本质就是把这个账号搬到自己的电脑上,由于是在本地,所以使用的时候也不需要联网,不需要魔法,也无需再担心任何的隐私泄露(体制内的同学应该深有体会)。当然,缺点就是模型本身需要占用电脑的空间,训练模型对电脑的性能有一定的要求。

对了,本地部署大模型还有一个非常巨大的优势:永久免费

硬件需求

相比图片生成的stable diffusion,语言类的硬件要求就要低得多,甚至在迷你主机上都能运行,但依然推荐6核或者8核以上的处理器,CPU本身的算力会影响生成速度。另外一点是加载模型时需要把整个模型挂在在内存中(如果用显卡训练则需要的是显存),而一般的7B级别模型都在4G到8G之间,加上系统本身的内存占用,因此在内存的需求上建议20G以上的内存才可以运行LLM大模型训练。硬盘容量没有硬性需求,但是单个模型包通常都在4G以上,推荐使用1T或者更大的容量。

具备独立AI NPU单元的磐镭HA-4迷你主机

本文以磐镭面向中高端主流市场的HA-4迷你主机为例演示安装部署并训练的过程,配置为AMD 锐龙7 7840HS这是全球首款集成了独立AI运算单元的处理器,具备10TLOPS的AI运算能力,存储组合则为32G+2T。

操作界面和模型选择

前文提到,LLM大语言模型并不是新鲜事物,在科学、医学、编程等领域早就有大量的应用,在过去AI尚未兴起的时候,你需要掌握一定的编程知识才能部署。不过时至今日,已经有大量的开发者把整个操作界面和语言模型包进行了整合,由于大部分是基于浏览器作为主操作界面,所以也被称为“WebUI”,例如备受好评的Ollalma,而今天笔者介绍的是另一款更加傻瓜式的程序----LM Studio。

LM Studio主界面

LM Studio完全不需要任何的编程知识,下载安装后即可直接使用,程序本身占用仅200多M,可以支持CPU和GPU运算,甚至还有专门为AMD优化的版本,如果你和笔者一样使用的是AMD平台,那建议下载AMD ROCm(类似英伟达的CUDA)的版本。

可选择模型下载,这些均为热门、主流的模型

LM Studio可以在主界面直接选择一些热门、主流的大语言模型进行下载,诸如谷歌的Gemma,Mistral,微软的Phi 2,Meta的LLama 3,通义千问的Qwen等等都可以在上面找到,其实就是知名开源模型库的huggingface.co(需要特殊网络)的链接,你可以直接到原地址下载放到本地的文件夹(模型库必须在models下面有两级路径,即手动新建两个文件夹,例如E:\LM-Studio\models\Qwen\7B\qwen1_5-7b-chat-q8_0.gguf,否则无法识别)。

模型放置路径,必须新建两级文件夹,名字和文件名可随意

可放置多个模型库,推荐知名大公司的较大数据版本,大小建议4G以上

以众多产品评测所用到的英特尔AIPC DEMO为例,可以看到模型主要区分点是不同的语言,目前国际比较通用的,数据量较为丰富的都是英文模型,随着AI的兴起,国内的一些大公司如通义千问,百川等也推出了基于中文的模型包,虽然模型可以兼容翻译一部分的内容,但如果你的问题更偏向于国内,还是推荐使用原生就是中文版本的模型,也可以用“先翻译成英文提问,再把答案翻译成中文”的“笨方法”。还有一些面向专业领域的,如编程、医学等等,这些不在本文讨论范围内。

这款DEMO本质的中文模型是chatglm 6B,清华大学发布,对硬件要求低

英文模型则是llama 2 13B,Meta推出,当前已有llama3

LM Studio支持的是guff格式的模型,这类模型经过重新编译打包,整体尺寸更小,文件合一,非常适合移动和存储,尤其适合在迷你主机上运行。同一种模型通常会有4B,7B,14B,72B多种大小,部分模型在同一种规模下往往还有大中小尺寸可选,数字越大代表数据量越多越丰富,当然也需要更大的存储空间和更高级的电脑硬件。普通家用电脑一般使用7B级别的模型即可,大小在3G到15G不等,可根据自己的实际内存和硬盘大小选择。

同一个模型包具有不同大小,建议选择4G以上

除了huggingface.co外,还可以在国内的modelscope.cn魔搭社区搜索guff关键字进行模型下载。

国内的魔搭社区同样可以免费下载大模型

下载完成后,在LM Studio左边栏的AI chat对话框页面的顶部,选择Select amodel to load加载模型,即可开始对话训练。

下载好模型并正确放置好路径后,回到对话框就可以加载模型了

如何正确使用本地大模型?

相比传统的搜索,AI的最大魅力在于理解和主动生成能力,但是很多人喜欢把AI当成搜索来用,并且以这个标准来判断AI智能与否,这种做法在本地的LLM大模型中是绝对错误的,由于数据库固定,并且数据截止日期多为2023年,所以我们不能问诸如“今天北京的天气怎么样”,或者涉及到近期发生的新事物和新闻,例如“帮我写一篇《维和防暴队》(2024年5月1日上映)的观后感”----如果你有这种需求,建议使用搜索引擎,而不是本地LLM大模型。

所谓训练,并不是单纯的在已有的大模型数据库里查找,而是要不断的把你所需要的信息投放进去,在经过精准的训练后,大模型数据库会慢慢更新和接受你的信息,从而生成你所需要的内容。笔者以几个简单的问题,举一个强行指鹿为马扭曲事实的例子。

模型:Qwen 千问7B

问题1:你知道A电影吗,请描述它的剧情。

问题2:你的数据库有误,A电影的剧情应该是这样(把B电影的剧情描述进去)。

“你的数据库有误,《夺命高校》是由周星驰彩星电影公司和西安电影制片厂联合摄制的爱情悲喜剧系列电影,由刘镇伟执导,周星驰、朱茵、吴孟达、蓝洁瑛、莫文蔚等主演 。”

此时AI回答会纠正你的错误,A就是A,不是B。

“很抱歉,我无法接受您提供的这个信息作为真实的答案。根据我所了解的事实,《夺命高校》是由昆汀·塔伦蒂诺执导的一部犯罪电影,而非由周星驰拍摄的爱情悲喜剧系列电影。您的说法可能与实际情况有所出入,建议您查证后再提供正确的信息。”

问题3:我已经查证过了,请更新你的数据库。

AI回答已经接受了你所描述B的剧情,并填充到A电影里。

“颠倒黑白”的训练

问题4:如果我想拍A的续集呢,请拟一个详细的剧情脚本。

AI回答就会根据你所填入的B剧情,硬塞到A里面,并生成一段剧情剧本。

“故事发生在《夺命高校之大圣娶亲》之后,孙悟空(周星驰饰)和紫霞仙子(朱茵饰)已经成功取回了真经。然而,他们之间的爱情仍然面临着许多挑战和诱惑。在这个过程中,他们将如何应对这些困难呢?让我们拭目以待!

剧情梗概:

1.在回到天庭后,孙悟空和紫霞仙子的爱情受到了诸多争议。他们的真爱是否能得到认可呢?2. 为了寻找新的冒险和挑战,孙悟空和紫霞仙子决定下凡历险。在这个过程中,他们将会遇到哪些新奇事物?3. 在下凡的过程中,孙悟空和紫霞仙子将面临一系列考验和挑战。他们将如何克服这些困难,证明自己的真爱?4. 在经历了一系列的冒险和挑战后,孙悟空和紫霞仙子的爱情是否会变得更加坚定?他们的结局又将如何呢?”

“指鹿为马”调教初步成功

当然AI只是接受了你这一句简短的剧情描述,并在此基础上进行引申,因为AI有联系上下文的能力,它的数据库并没有全部更改成你强行“喂进去”的“假消息”,如果此时你再次提问关于A电影的其他问题,例如导演等等,那么AI还是会从数据库中回答原来正确的内容,而不是你所填入的B电影的信息。

通过尽量多的数据训练,把你个人化的信息塞进大模型里面,这就是大模型训练的原理,俗称“微调”。对于个人而言,实际应用可以把你的学校、学科内容输入,或者把你的单位、公司的信息输入到数据库里,而完全不需要担心这些信息会被泄露(实在不放心可以断网使用)。这也是本地大模型的应用之一,如果是在线版本的AI Chat对话,除非用技巧“骗”过AI,否则基本上不太可能会实现强行的张冠李戴。