OCR MCP Server
一个基于 Tesseract.js 的 MCP(Model Context Protocol)服务器,让 Cursor 具备 OCR 图片文字识别能力。
功能特性
- 支持识别图片中的中文(简体/繁体)、英文等多种语言
- 支持常见图片格式:PNG、JPG、JPEG、BMP、GIF、WebP
- 纯 JavaScript 实现,无需额外安装 OCR 软件
- 返回识别置信度,帮助判断识别质量
安装
cd /Users/taowenxin/Desktop/mcpTest
npm install
在 Cursor 中配置
- 打开 Cursor 设置:
File>Preferences>Cursor Settings - 找到
Features>MCP - 点击
Edit in settings.json或手动添加配置
在 ~/.cursor/mcp.json 或 Cursor 设置中添加:
{
"mcpServers": {
"ocr-tool": {
"command": "node",
"args": ["/Users/taowenxin/Desktop/mcpTest/index.js"]
}
}
}
配置完成后,重启 Cursor 或刷新 MCP 连接。
使用方法
在 Cursor 的 Chat 面板(Agent 模式)中使用:
识别图片文字
请识别这张图片中的文字:/Users/taowenxin/Desktop/screenshot.png
或者指定语言:
请用英文识别这张图片:/path/to/image.jpg
查看支持的语言
请列出 OCR 支持的语言
支持的语言
| 语言代码 | 语言名称 |
|---|---|
| chi_sim | 简体中文 |
| chi_tra | 繁体中文 |
| eng | 英文 |
| jpn | 日文 |
| kor | 韩文 |
| fra | 法文 |
| deu | 德文 |
| spa | 西班牙文 |
| rus | 俄文 |
| ara | 阿拉伯文 |
提供的工具
recognize_text
识别图片中的文字内容。
参数:
image_path(必填): 图片文件的本地绝对路径languages(可选): 识别语言代码数组,默认["chi_sim", "eng"]
list_ocr_languages
列出所有支持的 OCR 语言及其代码。
注意事项
- 首次运行:Tesseract.js 会自动下载语言包(约 10-20MB),需要网络连接
- 识别质量:识别准确率取决于图片清晰度、字体大小和图片质量
- 使用模式:建议在 Cursor 的 Agent 模式下使用,以便自动触发工具调用
- 路径格式:请使用绝对路径,确保路径正确且文件存在
本地测试
# 直接运行服务器(用于调试)
node index.js
技术栈
- Model Context Protocol SDK - MCP 官方 SDK
- Tesseract.js - 纯 JavaScript OCR 引擎
License
MIT