MCP Hub
Back to servers

parseflow

Validation Failed

A comprehensive document parsing MCP server that supports text extraction, semantic search, and OCR for PDF, Word, Excel, and PowerPoint files.

Stars
2
Tools
23
Updated
Dec 18, 2025
Validated
Jan 9, 2026

Validation Error:

Process exited with code 1. stderr: npm error code EUNSUPPORTEDPROTOCOL npm error Unsupported URL Type "workspace:": workspace:* npm error A complete log of this run can be found in: /home/runner/.npm/_logs/2026-01-09T00_11_00_703Z-debug-0.log

Quick Install

npx -y parseflow-mcp-server

📄 ParseFlow

AI 驱动的全能文档解析库

npm version MCP Server License: MIT

English | 中文


ParseFlow 是一个全面的文档解析解决方案,支持 PDFWordExcelPowerPoint图片 OCR。它提供独立的核心库和 MCP 服务器,可供 AI 助手使用。

✨ 功能特性

📄 PDF 支持

  • ✅ 多策略文本提取(原始、格式化、清理)
  • ✅ 按页或按范围提取
  • ✅ 🔐 加密 PDF 密码支持
  • ✅ 📄 PDF 合并、拆分、提取页面
  • ✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

  • ✅ 文本提取和搜索
  • ✅ HTML 转换(Word)
  • ✅ 多工作表支持(Excel)
  • ✅ 幻灯片提取(PowerPoint)

🔍 OCR 图片识别

  • ✅ 支持 12 种语言
  • ✅ 图片文字提取和搜索

🧠 语义搜索

  • ✅ AI 向量嵌入
  • ✅ 智能文档搜索(无需精确关键词)

📦 批量处理

  • ✅ 并行处理多个文件
  • ✅ 目录递归扫描
  • ✅ 批量提取和搜索

🤖 MCP 服务器

  • 20 个 AI 助手工具
  • ✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装

核心库

npm install parseflow-core

MCP 服务器

npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

🚀 快速开始

PDF 解析

import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

🛠️ MCP 服务器配置

Claude Desktop

claude_desktop_config.json 中添加:

{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具(23 个)

类别工具描述
PDFextract_text提取文本(支持加密 PDF)
get_metadata获取元数据
search_pdf全文搜索
extract_images提取图片
get_toc获取目录
merge_pdf合并多个 PDF
split_pdf拆分为单页
extract_pdf_pages提取指定页码
add_watermark添加文字水印
add_image_watermark添加图片水印
remove_watermark移除水印(覆盖)
Wordextract_word提取文本/HTML
search_word文本搜索
Excelextract_excel提取数据
search_excel单元格搜索
PPTextract_powerpoint提取幻灯片
search_powerpoint幻灯片搜索
OCRextract_ocr图片文字识别
search_ocrOCR 文本搜索
AIsemantic_index文档向量索引
semantic_search语义相似搜索
批量batch_extract批量提取多文件
batch_search批量搜索多文件

📈 版本历史

版本功能
v1.8.0💧 PDF 水印(文字/图片水印)
v1.7.0📦 批量处理(并行处理多文件)
v1.6.0🧠 语义搜索(AI 向量嵌入)
v1.5.0📄 PDF 合并/拆分/提取
v1.4.0🔐 加密 PDF 支持
v1.3.0🔍 OCR 图片文字识别
v1.2.0🎯 PowerPoint 支持
v1.1.0📝 Word + 📊 Excel 支持
v1.0.0📄 PDF 基础解析

🔗 链接


📄 许可证

MIT License - 详见 LICENSE


Made with ❤️ by Libres-coder

Reviews

No reviews yet

Sign in to write a review