为了账号安全,请及时绑定邮箱和手机立即绑定

奥拉玛OCR:用奥拉玛实现高精度文字识别

Llama 3.2-Vision 是一个多模态大型语言模型,能够处理文本和图像输入并生成文本输出,提供110亿和900亿两种参数规模。该模型在视觉识别、图像推理、图像描述以及回答图像相关问题等方面表现出色,超越了现有开源和闭源多模态模型,在多个行业基准测试中表现出色。

找到最适合你的 Next.js 开始项目

查看很棒的 Shadcn

羊驼3.2:示例

手写体

llama3.2-vision-handwriting

光学字符识别技术(OCR技术)

llama3.2-vision-ocr

本文将描述如何调用并使用由 Ollama 运行的 Llama 3.2-Vision 11B 模型的服务,并使用 Ollama-OCR 实现文字识别(OCR)功能的具体步骤。

Ollama-OCR 的特点

🚀 利用Llama 3.2-Vision模型进行高精度文本识别
📝 保持原文本的格式和结构不变
🖼️ 支持多种图片格式:JPG、JPEG、PNG
⚡️ 可自定义识别提示及模型
🔍 提供Markdown格式输出选项
💪 强大的错误处理能力

MacOS Vision OCR: 适用于 macOS 的快速且准确的 OCR 工具

安装 Ollama - 开始你的旅程

在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama,这是一个支持本地运行多模态模型的平台。请参照以下步骤进行安装:

下载 Ollama:访问 Ollama 官网,下载适用于您操作系统的安装包。下载 Ollama
1、安装 Ollama:按照下载的安装包中的提示完成安装。

如何安装Llama 3.2和11B视觉版本

安装了 Ollama 之后,可以使用以下命令安装该 Llama 3.2-Vision 11B 模型。

运行一下llama3.2-vision这个模型吧

全屏 退出全屏

如何使用:Ollama-OCR
    npm install ollama-ocr
    # 或者你可以试试 pnpm add ollama-ocr

进入全屏模式,退出全屏

光学字符识别 (OCR)

// 导入 OCR 相关的函数和常量
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

// 异步运行 OCR 识别
async function runOCR() {
  // 读取手写图片并使用默认系统提示进行 OCR 识别
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  // 输出识别的文本到控制台
  console.log(text);
}

点击全屏 点击退出全屏

输入图片

手写识别,用于奥拉玛的OCR 看一下这个。

输出:
Llama 3.2-Vision 这个多模态大语言模型(LLMs)集合是经过指令调优的图像推理生成模型,提供 118 和 908 亿参数两种尺寸(输入文本和图像,输出文本结果)。这些经过指令调优的 Llama 3.2-Vision 模型针对视觉识别、图像推理、图像描述和回答关于图像的通用问题进行了优化。在常用的行业基准测试中,这些模型的表现优于许多可用的开源和专有多模态模型。

Markdown 输出结果

    import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

    async function 运行OCR() {
      const text = await ollamaOCR({
        filePath: "./trader-joes-receipt.jpg",
        systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
      });
      console.log(text);
    }

进入全屏 退出全屏

输入图片:

特德-乔的收据

如下:

Markdown 输出的 Ollama OCR 结果 该链接将打开一个图片。

MiniCPM-V 2.6 视觉处理模型版本

// 异步函数用于运行OCR识别
async function 运行OCR识别() {
  const 识别结果 = await ollamaOCR({
    model: "minicpm-v",
    filePath: "./handwriting.jpg.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(识别结果);
}

全屏,退出全屏

ollama-ocr 使用的是本地视觉模型,如果你想使用在线 Llama 3.2-Vision 模型,可以试试这个 llama-ocr 库。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消