首页手记如何在本地用OpenVINO™运行Llam...

如何在本地用OpenVINO™运行Llama 3.2模型

标签：

Python 机器学习人工智能

作者：吴卓 (Zhuo Wu)、雷蒙德·洛 (Raymond Lo)、德米特里·帕斯特申科夫 (Dmitriy Pastushenkov)

随着 Llama 3.2 的刚刚发布，，访问最新的 AI 模型进展变得比任何时候都更加容易。得益于 OpenVINO™ 和 Optimum Intel 的无缝结合，您可以在 Intel 硬件上压缩、优化并运行这个强大的模型。在本指南中，我们将带您一步步了解整个过程，从环境设置到模型执行，帮助您解锁 Llama 3.2 的全部潜力，。

为开发做好机器的准备工作！
下载 OpenVINO GenAI 示例代码并进行安装
安装最新构建及其依赖项
使用 NNCF 下载并导出 Llama 3.2 模型
运行模型进行测试
最后一步：得出结论

第一步：准备你的机器以供开发使用，开始吧！

对于首次使用的用户，我们建议您按照 wiki 中的基本设置步骤（1、2 和 3）进行设置。

把机器设置好，准备好了哦。

主页📚 OpenVINO™ Jupyter notebook 教程。通过提交教程来为 openvinotoolkit/openvino_notebooks 的开发做出贡献…github.com 第一步：下载OpenVINO GenAI的示例代码

最简单的方法是在Windows系统上通过OpenVINO GenAI API运行Llama 3.2。我们将通过提供的示例代码一步步教你如何设置。

从克隆仓库开始吧：

就像这样克隆仓库：

git clone <仓库网址>

这样你就开始了！

    git clone https://github.com/openvinotoolkit/openvino.genai.git

在仓库里，你可以找到一个名为 chat_sample 的 Python 示例。这个示例仅用不到 40 行代码就能让你运行 Llama 3.1 并处理用户输入。这是探索该模型功能的一个简单起点。

下面是一个示例代码的预览：

    #!/usr/bin/env python3  
    # 版权所有 (C) 2024 Intel Corporation  
    # SPDX-License-Identifier: Apache-2.0  

    import argparse  
    import openvino_genai  

    def streamer(subword):  
        print(subword, end='', flush=True)  
        # 返回标志表示生成是否应该停止。  
        return False  

    def main():  
        parser = argparse.ArgumentParser()  
        parser.add_argument('model_dir')  
        args = parser.parse_args()  

        device = 'CPU'  # 也可以使用 GPU 设备  
        pipe = openvino_genai.LLMPipeline(args.model_dir, device)  

        config = openvino_genai.GenerationConfig()  
        config.max_new_tokens = 100  

        pipe.start_chat()  
        while True:  
            try:  
                prompt = input('提问：\n')  
            except EOFError:  
                break  
            pipe.generate(prompt, config, streamer)  
            print('\n----------')  
        pipe.finish_chat()  

    if __name__ == '__main__':  
        main()

接下来我们配置环境以便下载、转换和运行模型。

第二步：安装最新的构建及其依赖项

为了防止依赖冲突，最好创建一个独立的虚拟环境。

    python -m venv openvino_venv

运行此命令以创建一个新的venv环境：python -m venv openvino_venv。

启动环境：

运行这个命令来激活环境
openvino_venv\Scripts\activate

现在先安装必要的依赖即可。

使用Python安装升级pip: `python -m pip install --upgrade pip`
安装openvino-genai, openvino, openvino-tokenizers[transformers]以及其他依赖，使用预发布版本和额外的索引URL: `pip install -U --pre openvino-genai openvino openvino-tokenizers[transformers] --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly`
安装额外的库，使用额外的索引URL: `pip install --extra-index-url https://download.pytorch.org/whl/cpu "git+https://github.com/huggingface/optimum-intel.git" "git+https://github.com/openvinotoolkit/nncf.git" "onnx<=1.16.1"`

第三步：使用NNCF下载并导出Llama 3.2。

在从Hugging Face导出模型之前，请先接受使用协议在这里。

然后，使用以下命令下载模型并将其导出。

    optimum-cli 导出为 openvino --model meta-llama/Llama-3.2-3B-Instruct --task 文本生成（含过去状态） --weight-format 量化int4 --group-size 64 --ratio 1.0 --sym --awq --尺度估计 --dataset "wikitext2" --all-layers llama-3.2-3b-instruct-INT4

步骤 4：跑模型

使用以下命令来运行模型的推理过程，使用OpenVINO：

python your_script.py

运行以下Python脚本来启动聊天示例：python chat_sample.py llama-3.2-3b-instruct-INT4

这段代码在CPU上运行良好，但很容易通过将\textit{chat_sample.py}文件中的设备名称改为“GPU”来让代码在GPU上运行：

    pipe = ov_genai.LLMPipeline(model_path, "GPU")  # 创建一个管道，使用GPU加速

这是我在AI电脑的集成GPU上跑出来的结果！它在ARC A770独立显卡上表现得非常出色！

结论部分

在本地用 OpenVINO™ 运行 Llama 3.2 可以为希望在 Intel 硬件上最大化 AI 性能的开发者提供强大而高效的解决方案。通过这样的设置，您可以享受更快的推理时间、更低延迟和更少资源消耗——所有这些都只需要少量的设置和编码工作。希望本指南能帮助您快速有效地上手。祝您编码顺利！

更多内容

以下是一些关于AI和OpenVINO™的相关资料，您可以进一步了解：

使用OpenVINO™和LlamaIndex构建代理RAG系统
- 使用OpenVINO™和LlamaIndex构建高级AI系统的全面指南
使用OpenVINO™ GenAI API构建更快的GenAI应用程序，用更少的代码行
- 学习如何使用更少的代码行构建更快的GenAI应用程序
在CPU和GPU上使用OpenVINO运行Llama2
- 使用OpenVINO在CPU上优化运行Llama 2
如何使用OpenVINO™本地运行Llama 3.1
- 如何使用OpenVINO本地运行Llama 3.1

额外资源

OpenVINO文档
 Jupyter笔记本 (Notebooks)
安装与设置
 产品页面

作者和编辑简介：

Zhuo Wu，拥有电子学博士学位，是英特尔的AI倡导者，专注于Intel的OpenVINO™工具套件。她的工作涵盖了深度学习、5G无线通信、计算机视觉、边缘计算和物联网系统。她为多个行业提供了AI解决方案，并在此过程中在4G-LTE和5G系统领域进行了大量研究。此前，她曾是贝尔实验室（中国）的研究科学家，也曾是上海大学的副教授，领导了多个研究项目并申请了多项专利和发表了多篇论文。

Raymond Lo目前位于硅谷，是英特尔AI布道者团队的全球负责人，专注于OpenVINO™工具包。他目前位于硅谷，并且他拥有丰富的背景，包括创立增强现实公司Meta，还包括曾在三星NEXT和谷歌云AI担任重要职务。他的工作横跨创业精神和企业创新，经常在像TED Talks和SIGGRAPH这样的国际大会上发表演讲。

Dmitriy Pastushenkov 是英特尔德国的 AI PC 推广专家，拥有超过 20 年的工业自动化、工业物联网、实时操作系统和 AI 方面的经验。他在软件开发、架构和技术管理方面担任过各种职务。自 2022 年加入英特尔以来，他作为软件架构师，专注于在智能边缘计算优化 AI 和实时工作负载。目前，他积极推广 OpenVINO 和 AI PC 软件栈。Dmitriy 拥有莫斯科动力工程学院计算机科学硕士学位。

斯蒂芬妮·马拉索是英特尔的产品营销师和分析师，专注于 OpenVINO™ 工具包。从实习生开始，她在团队中工作了三年多，对所支持的创新 AI 产品和工具充满热情，致力于创造有影响力的内容，推动这些产品的普及。

通知及免责声明事项

英特尔技术可能需要支持的硬件、软件或激活的服务。

没有哪个产品或组件能保证绝对安全。

你的费用和结果可能会有所不同哦。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

墨色风雨

手记
篇

粉丝

75

获赞与收藏

351

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 26025 882

Python 算法入门教程

15个小节 27842 1087

Python 进阶应用教程

38个小节 66992 1052

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

如何在本地用OpenVINO™运行Llama 3.2模型

阅读免费教程