📄 ParseFlow

AI 驱动的全能文档解析库

English | 中文

ParseFlow 是一个全面的文档解析解决方案，支持 PDF、Word、Excel、PowerPoint 和 图片 OCR。它提供独立的核心库和 MCP 服务器，可供 AI 助手使用。

✨ 功能特性

📄 PDF 支持

✅ 多策略文本提取（原始、格式化、清理）
✅ 按页或按范围提取
✅ 🔐 加密 PDF 密码支持
✅ 📄 PDF 合并、拆分、提取页面
✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

✅ 文本提取和搜索
✅ HTML 转换（Word）
✅ 多工作表支持（Excel）
✅ 幻灯片提取（PowerPoint）

🔍 OCR 图片识别

✅ 支持 12 种语言
✅ 图片文字提取和搜索

🧠 语义搜索

✅ AI 向量嵌入
✅ 智能文档搜索（无需精确关键词）

📦 批量处理

✅ 并行处理多个文件
✅ 目录递归扫描
✅ 批量提取和搜索

🤖 MCP 服务器

✅ 20 个 AI 助手工具
✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装

核心库

npm install parseflow-core

MCP 服务器

npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

🚀 快速开始

PDF 解析

import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

🛠️ MCP 服务器配置

Claude Desktop

在 claude_desktop_config.json 中添加：

{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具（23 个）

类别	工具	描述
PDF	`extract_text`	提取文本（支持加密 PDF）
	`get_metadata`	获取元数据
	`search_pdf`	全文搜索
	`extract_images`	提取图片
	`get_toc`	获取目录
	`merge_pdf`	合并多个 PDF
	`split_pdf`	拆分为单页
	`extract_pdf_pages`	提取指定页码
	`add_watermark`	添加文字水印
	`add_image_watermark`	添加图片水印
	`remove_watermark`	移除水印（覆盖）
Word	`extract_word`	提取文本/HTML
	`search_word`	文本搜索
Excel	`extract_excel`	提取数据
	`search_excel`	单元格搜索
PPT	`extract_powerpoint`	提取幻灯片
	`search_powerpoint`	幻灯片搜索
OCR	`extract_ocr`	图片文字识别
	`search_ocr`	OCR 文本搜索
AI	`semantic_index`	文档向量索引
	`semantic_search`	语义相似搜索
批量	`batch_extract`	批量提取多文件
	`batch_search`	批量搜索多文件

📈 版本历史

版本	功能
v1.8.0	💧 PDF 水印（文字/图片水印）
v1.7.0	📦 批量处理（并行处理多文件）
v1.6.0	🧠 语义搜索（AI 向量嵌入）
v1.5.0	📄 PDF 合并/拆分/提取
v1.4.0	🔐 加密 PDF 支持
v1.3.0	🔍 OCR 图片文字识别
v1.2.0	🎯 PowerPoint 支持
v1.1.0	📝 Word + 📊 Excel 支持
v1.0.0	📄 PDF 基础解析

🔗 链接

npm Core: https://www.npmjs.com/package/parseflow-core
npm MCP: https://www.npmjs.com/package/parseflow-mcp-server
GitHub: https://github.com/Libres-coder/ParseFlow

📄 许可证

MIT License - 详见 LICENSE

Made with ❤️ by Libres-coder

parseflow

Quick Install