Llama 3.2-Vision 是一个多模态大型语言模型,能够处理文本和图像输入并生成文本输出,提供110亿和900亿两种参数规模。该模型在视觉识别、图像推理、图像描述以及回答图像相关问题等方面表现出色,超越了现有开源和闭源多模态模型,在多个行业基准测试中表现出色。
羊驼3.2:示例手写体
光学字符识别技术(OCR技术)
本文将描述如何调用并使用由 Ollama 运行的 Llama 3.2-Vision 11B 模型的服务,并使用 Ollama-OCR 实现文字识别(OCR)功能的具体步骤。
Ollama-OCR 的特点🚀 利用Llama 3.2-Vision模型进行高精度文本识别
📝 保持原文本的格式和结构不变
🖼️ 支持多种图片格式:JPG、JPEG、PNG
⚡️ 可自定义识别提示及模型
🔍 提供Markdown格式输出选项
💪 强大的错误处理能力
安装 Ollama - 开始你的旅程MacOS Vision OCR: 适用于 macOS 的快速且准确的 OCR 工具
在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama,这是一个支持本地运行多模态模型的平台。请参照以下步骤进行安装:
下载 Ollama:访问 Ollama 官网,下载适用于您操作系统的安装包。
1、安装 Ollama:按照下载的安装包中的提示完成安装。
安装了 Ollama 之后,可以使用以下命令安装该 Llama 3.2-Vision 11B 模型。
运行一下llama3.2-vision这个模型吧
全屏 退出全屏
如何使用:Ollama-OCR npm install ollama-ocr
# 或者你可以试试 pnpm add ollama-ocr
进入全屏模式,退出全屏
光学字符识别 (OCR)
// 导入 OCR 相关的函数和常量
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";
// 异步运行 OCR 识别
async function runOCR() {
// 读取手写图片并使用默认系统提示进行 OCR 识别
const text = await ollamaOCR({
filePath: "./handwriting.jpg",
systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
});
// 输出识别的文本到控制台
console.log(text);
}
点击全屏 点击退出全屏
输入图片
看一下这个。
输出:
Llama 3.2-Vision 这个多模态大语言模型(LLMs)集合是经过指令调优的图像推理生成模型,提供 118 和 908 亿参数两种尺寸(输入文本和图像,输出文本结果)。这些经过指令调优的 Llama 3.2-Vision 模型针对视觉识别、图像推理、图像描述和回答关于图像的通用问题进行了优化。在常用的行业基准测试中,这些模型的表现优于许多可用的开源和专有多模态模型。
Markdown 输出结果
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";
async function 运行OCR() {
const text = await ollamaOCR({
filePath: "./trader-joes-receipt.jpg",
systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
});
console.log(text);
}
进入全屏 退出全屏
输入图片:
如下:
该链接将打开一个图片。
MiniCPM-V 2.6 视觉处理模型版本
// 异步函数用于运行OCR识别
async function 运行OCR识别() {
const 识别结果 = await ollamaOCR({
model: "minicpm-v",
filePath: "./handwriting.jpg.jpg",
systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
});
console.log(识别结果);
}
全屏,退出全屏
ollama-ocr 使用的是本地视觉模型,如果你想使用在线 Llama 3.2-Vision 模型,可以试试这个 llama-ocr 库。
共同学习,写下你的评论
评论加载中...
作者其他优质文章