MCP Hub
Back to servers

xiaozhi-esp32-server-java

A Java-based enterprise management platform for Xiaozhi ESP32 hardware, providing integrated firmware management, voice cloning, and multi-LLM support for IoT device control.

Stars
1,075
Forks
398
Updated
Dec 20, 2025
Validated
Jan 9, 2026

Xiaozhi ESP32 Server Java

基于 Xiaozhi ESP32 项目开发的 Java 版本服务端,包含完整前后端管理平台
为智能硬件设备提供强大的后端支持和直观的管理界面

反馈问题 · 部署文档 · 更新日志

GitHub Contributors Issues GitHub pull requests License stars

如果这个项目对您有帮助,请考虑给它一个 ⭐ Star!
您的支持是我们持续改进的动力!


项目简介 📝

Xiaozhi ESP32 Server Java 是基于 Xiaozhi ESP32 项目开发的 Java 版本服务端,包含完整的前后端管理平台。该项目旨在为用户提供一个功能丰富、操作便捷的管理界面,帮助用户更好地管理设备、配置等。

考虑到企业级应用场景的需求,Java 作为一种成熟的企业级开发语言,具备更完善的生态系统支持和更强大的并发处理能力,因此我们选择开发这个 Java 版本的服务端,为项目提供更多可能性和扩展空间。

  • 后端框架:Spring Boot + Spring MVC
  • 前端框架:Vue.js + Ant Design
  • 数据存储:MySQL + Redis
  • 全局响应式:适配各种设备及分辨率

适用人群 👥

如果您已经购买了 ESP32 相关硬件,且希望通过一个功能完善、界面友好的管理平台来控制和管理您的设备,那么本项目非常适合您。特别适合:

  • 需要企业级稳定性的用户
  • 个人开发者,希望快速搭建使用的用户
  • 希望有完整前端管理界面的用户
  • 需要更强大数据管理和分析能力的用户
  • 对系统扩展性有较高要求的用户
  • 需要支持大量设备并发连接的场景
  • 对实时数据处理有高要求的应用场景

功能模块 ✨(部分内容未开源,有需求请通过下方联系方式沟通)

开源版功能 🆓

功能模块状态描述
首句响应唤醒词响应时间 >4秒
平均响应速度平均对话响应时间 >3秒
WebSocket协议高性能WebSocket通信,支持设备实时状态更新和控制
设备管理查看已接入的所有设备列表、设备状态实时监控、添加/编辑/删除设备信息
音色选择提供多种音色模板、预览音色效果、为不同设备分配不同音色配置
用户管理支持多用户配置,满足家庭多成员使用需求
聊天记录查看历史聊天记录、按日期/关键词搜索聊天内容、删除消息、清空记忆功能
智能体对接Coze与Dify等智能体平台,实现复杂场景对话能力
角色切换预设角色切换(AI老师、男/女朋友、智能家居助手等)支持语音切换角色
持久化对话支持持久化对话记录,方便查看历史对话内容
LLM多平台支持支持OpenAI、智谱AI、讯飞星火、Ollama等多种大语言模型
IoT设备控制支持通过语音指令管理IoT设备,实现智能家居控制
多语音识别服务支持Funasr、阿里、腾讯、Vosk等多种语音识别服务
Function Call支持LLM函数调用功能,实现复杂任务处理和智能决策
拍照识图支持图像识别和处理,实现更丰富的交互方式
实时打断支持实时打断功能,提高对话流畅度
记忆管理自定义记忆对话条数、历史对话总结/摘要功能、手动操作对话记录
多语言支持支持多语言界面,满足不同地区用户需求

商业版功能 💼

功能模块状态描述
首句响应唤醒词响应时间 <1秒,极速响应体验
平均响应速度平均对话响应时间 <2.5秒,流畅对话体验
MQTT协议支持MQTT通信协议,长连接、服务端主动唤醒
音色克隆支持火山引擎与阿里云音色克隆,实现个性化声音定制
双向流式交互支持火山、阿里、讯飞流式播放,实时语音输入和回复输出
用户端友好的用户端操作界面,原生卡片方式设备管理页面
MCP接入点基于角色的MCP工具接入点,扩展功能接入
MCP服务SSE MCP接入方式,支持更多第三方服务集成
Function Call安抚词工具调用前置安抚词,提升用户体验
长期记忆根据用户对话,提取关键信息记录,智能记忆管理
知识库RAG检索知识库(后期拓展图知识库),文档上传,智能检索
记忆总结基于知识库长期记忆总结,智能对话分析
语音提醒与闹钟服务端主动唤醒设备下发音频内容,智能提醒功能
多设备协同AB设备协同播放,全屋智能协同工作
监控面板监控日、周、月不同维度Token,对话时长,设备活跃等数据
OTA固件升级固件上传,自动升级,远程设备管理
聊天数据可视化聊天频率统计图表等数据可视化功能,监控对话数据趋势
混合模式角色支持多角色混合模式,通过不同唤醒词唤醒不同角色(自动切换)

开发中功能 🚧

功能模块状态描述
声纹识别🚧支持声纹识别功能,实现个性化语音助手
Home Assistant🚧支持智能家居设备控制,通过语音指令管理Home Assistant设备
情感分析🚧通过语音情感分析,提供更人性化的回复
自定义插件系统🚧支持自定义插件开发,扩展系统功能
远程控制🚧支持远程控制设备,实现外出时的设备管理

UI 展示 🎨

核心功能展示

设备管理

设备管理 - 全面管理和监控所有连接设备

消息记录

消息记录 - 查看和搜索历史对话内容

音色克隆

音色克隆 - 克隆自己的声音,实现个性化语音助手

MCP服务管理

MCP服务 - SSE MCP服务管理,管理MCP工具

更多功能界面


部署文档 📚

我们提供了多种部署方式,以满足不同用户的需求:

1. 本地源码运行

成功运行后,控制台会输出 OTA 和 WebSocket 连接地址,根据固件编译文档使设备接入服务使用。

2. Docker部署

3. 固件编译

烧录成功且联网成功后,通过唤醒词唤醒小智,留意后端控制台输出的信息。


性能测试 🔬

我们开发了专门的 WebSocket 并发测试工具 Xiaozhi Concurrent,用于评估系统的性能和稳定性。测试工具支持模拟大量设备同时连接,测试完整的 WebSocket 通信流程,并生成详细的性能报告和可视化图表。

📖 测试工具的详细使用说明、安装步骤和参数配置请查看:Xiaozhi Concurrent 仓库

基准测试结果

以下测试数据基于腾讯云服务器(8核8G,100M按量付费带宽) 环境,100个设备、100并发连接、持续5轮 对话测试:

性能指标

测试项目成功率平均时延最小值最大值备注
WebSocket连接100% (500/500)0.090s--建立连接耗时
Hello握手100% (500/500)0.073s--握手响应时间
唤醒词响应100% (500/500)0.333s--唤醒词到音频回复
语音识别准确率100% (500/500)---真实音频识别
语音识别时延-0.988s0.949s1.255sASR识别耗时(包含800ms静音)
服务器处理时延-0.849s0.454s3.759s服务端处理耗时(LLM+TTS)
用户感知时延-1.837s1.433s4.723s说话结束到收到回复

服务器资源占用

资源类型空闲时峰值说明
CPU使用率0%80%8核CPU占用率
内存占用1.8G1.96GJVM堆内存稳定
网络带宽(上行)02200KB/s客户端音频上传
网络带宽(下行)03300KB/s服务端音频下发
WebSocket连接数0100并发活跃连接数

音频传输质量

指标数值说明
音频帧平均间隔58.07ms音频帧发送间隔
帧延迟率8.47% (4226/49918)>65ms

测试结果可视化

性能测试结果

并发测试数据可视化 - 时延分布与性能指标统计


商业合作

我们接受各种项目开发,如果您有特定需求或对商业版本感兴趣,欢迎通过微信联系洽谈。

微信

贡献指南 👐

欢迎任何形式的贡献!如果您有好的想法或发现问题,请通过以下方式联系我们:

微信

微信群超200人无法扫码进群,可以加我微信备注 小智 我拉你进微信群

微信

QQ

欢迎加入我们的QQ群一起交流讨论,QQ群号:790820705

QQ群

免责声明 ⚠️

本项目仅提供技术实现代码,不提供任何媒体内容。用户在使用相关功能时应确保拥有合法的使用权或版权许可,并遵守所在地区的版权法律法规。

项目中可能涉及的示例内容或资源均来自网络或由用户投稿提供,仅用于功能演示和技术测试。如有任何内容侵犯了您的权益,请立即联系我们,我们将在核实后立即采取删除等处理措施。

本项目开发者不对用户使用本项目代码获取或播放的任何内容承担法律责任。使用本项目即表示您同意自行承担使用过程中的全部法律风险和责任。


Star History 📈

Star History Chart

Reviews

No reviews yet

Sign in to write a review