DevDocs:一款专为程序员打造的开源文档爬取和处理工具
DevDocs是什么?
DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。
DevDocs功能特征
智能爬取:
支持选择爬取深度(1-5 级)。
自动发现并分类所有相关页面。
可选择性爬取,精确提取所需内容。
自动检测并映射网站结构中的子 URL。
性能与速度:
支持并行处理,可同时爬取多个页面。
智能缓存,避免重复爬取内容。
支持懒加载,可处理现代 Web 应用。
尊重服务器,设置了爬取速率限制。
内容处理:
提取纯净内容,去除无关信息。
支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。
逻辑化组织内容,便于理解和使用。
与 MCP 服务器集成,可直接用于 AI 处理。
企业级功能:
爬取失败时自动重试。
全面记录操作日志。
提供 API 接口,方便与其他工具集成。
支持团队管理,可设置多个席位和角色。
DevDocs使用教程方法
启动服务:
使用 Docker(推荐):
克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git
进入项目目录:cd DevDocs
根据操作系统运行启动脚本:
Mac/Linux:./docker-start.sh
Windows:docker-start.bat
手动设置权限(Windows 用户可能需要):
通过 Windows 资源管理器:
右键单击 logs、storage、crawl_results 目录。
选择“属性”。
切换到“安全”选项卡。
点击“编辑”以更改权限。
点击“添加”以添加用户或组。
输入“Everyone”,并点击“检查名称”。
点击“确定”。
在列表中选择“Everyone”。
勾选“允许”下的“完全控制”。
点击“应用”和“确定”。
通过命令提示符(以管理员身份运行):
icaclslogs/grantEveryone:F/Ticaclsstorage/grantEveryone:F/Ticaclscrawl_results/grantEveryone:F/T访问 DevDocs:
前端 UI:http://localhost:3001
后端 API:http://localhost:24125
Crawl4AI 服务:http://localhost:11235
查看日志:
使用 Docker 时,可以通过以下命令查看容器日志:
查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai
实时跟踪日志:docker logs -f devdocs-backend
停止服务:
在运行 docker-start 的终端中按下 Ctrl+C。
如何集成Cline/Roo
1. 创建模式:
在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。
2. 命名模式(例如,Research_MCP)。
3. 定义角色:
专业知识:开发者文档检索、技术综合和文档搜索。
个性:系统化、注重细节、精确。
行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。
4. 自定义指令:
目录工具:返回完整的或过滤后的文档主题列表。
章节访问工具:检索特定文档章节的详细内容。
5. 工作流程:
解析用户查询以提取关键主题、关键词和上下文。
使用目录工具搜索文档索引以找到相关章节。
对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。
合并检索到的内容,确保包含所有必要的细节,并清晰引用。
Github:https://github.com/cyberagiinc/DevDocs
官网:https://www.cyberagi.ai/