首页手记奥拉玛OCR：用奥拉玛实现高精度文字识别

奥拉玛OCR：用奥拉玛实现高精度文字识别

标签：

Python 机器学习计算机视觉

Llama 3.2-Vision 是一个多模态大型语言模型，能够处理文本和图像输入并生成文本输出，提供110亿和900亿两种参数规模。该模型在视觉识别、图像推理、图像描述以及回答图像相关问题等方面表现出色，超越了现有开源和闭源多模态模型，在多个行业基准测试中表现出色。

找到最适合你的 Next.js 开始项目

查看很棒的 Shadcn

羊驼3.2：示例

手写体

光学字符识别技术（OCR技术）

本文将描述如何调用并使用由 Ollama 运行的 Llama 3.2-Vision 11B 模型的服务，并使用 Ollama-OCR 实现文字识别（OCR）功能的具体步骤。

Ollama-OCR 的特点

🚀 利用Llama 3.2-Vision模型进行高精度文本识别
📝 保持原文本的格式和结构不变
🖼️ 支持多种图片格式：JPG、JPEG、PNG
⚡️ 可自定义识别提示及模型
🔍 提供Markdown格式输出选项
💪 强大的错误处理能力

MacOS Vision OCR: 适用于 macOS 的快速且准确的 OCR 工具

安装 Ollama - 开始你的旅程

在开始使用 Llama 3.2-Vision 之前，您需要安装 Ollama，这是一个支持本地运行多模态模型的平台。请参照以下步骤进行安装：

下载 Ollama：访问 Ollama 官网，下载适用于您操作系统的安装包。
1、安装 Ollama：按照下载的安装包中的提示完成安装。

如何安装Llama 3.2和11B视觉版本

安装了 Ollama 之后，可以使用以下命令安装该 Llama 3.2-Vision 11B 模型。

运行一下llama3.2-vision这个模型吧

全屏退出全屏

如何使用：Ollama-OCR

    npm install ollama-ocr
    # 或者你可以试试 pnpm add ollama-ocr

进入全屏模式，退出全屏

光学字符识别 (OCR)

// 导入 OCR 相关的函数和常量
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

// 异步运行 OCR 识别
async function runOCR() {
  // 读取手写图片并使用默认系统提示进行 OCR 识别
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  // 输出识别的文本到控制台
  console.log(text);
}

点击全屏点击退出全屏

输入图片

看一下这个。

输出：
Llama 3.2-Vision 这个多模态大语言模型（LLMs）集合是经过指令调优的图像推理生成模型，提供 118 和 908 亿参数两种尺寸（输入文本和图像，输出文本结果）。这些经过指令调优的 Llama 3.2-Vision 模型针对视觉识别、图像推理、图像描述和回答关于图像的通用问题进行了优化。在常用的行业基准测试中，这些模型的表现优于许多可用的开源和专有多模态模型。

Markdown 输出结果

    import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

    async function 运行OCR() {
      const text = await ollamaOCR({
        filePath: "./trader-joes-receipt.jpg",
        systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
      });
      console.log(text);
    }

进入全屏退出全屏

输入图片：

如下:

该链接将打开一个图片。

MiniCPM-V 2.6 视觉处理模型版本

// 异步函数用于运行OCR识别
async function 运行OCR识别() {
  const 识别结果 = await ollamaOCR({
    model: "minicpm-v",
    filePath: "./handwriting.jpg.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(识别结果);
}

全屏，退出全屏

ollama-ocr 使用的是本地视觉模型，如果你想使用在线 Llama 3.2-Vision 模型，可以试试这个 llama-ocr 库。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

缥缈止盈

手记
篇

粉丝

34

获赞与收藏

152

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25585 865

Python 算法入门教程

15个小节 27261 1065

Python 进阶应用教程

38个小节 65199 1020

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

奥拉玛OCR：用奥拉玛实现高精度文字识别

手写体

光学字符识别技术（OCR技术）

光学字符识别 (OCR)

Markdown 输出结果

MiniCPM-V 2.6 视觉处理模型版本

阅读免费教程