DevDocs:一款专为程序员打造的开源文档爬取和处理工具

AI快讯 2025-04-27 20:28更新网络

DevDocs是什么?

DevDocs 是一款由 CyberAGI Inc专为程序员设计的开源技术文档管理工具。它支持智能爬取技术文档,可自定义爬取深度,自动发现并分类相关内容,提取纯净信息并支持导出为 MD 或 JSON 格式,将以往需要花数周理解文档的时间缩短至几个小时。除此之外,DevDocs还内置 MCP 服务器,支持集成到 Claude、Cursor、Cline 等 ai 应用,实现聊天对话查询文档。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs功能特征

智能爬取:

支持选择爬取深度(1-5 级)。

自动发现并分类所有相关页面。

可选择性爬取,精确提取所需内容。

自动检测并映射网站结构中的子 URL。

性能与速度:

支持并行处理,可同时爬取多个页面。

智能缓存,避免重复爬取内容。

支持懒加载,可处理现代 Web 应用。

尊重服务器,设置了爬取速率限制。

内容处理:

提取纯净内容,去除无关信息。

支持导出为 MD 或 JSON 格式,方便用于 LLM 微调。

逻辑化组织内容,便于理解和使用。

与 MCP 服务器集成,可直接用于 AI 处理。

企业级功能:

爬取失败时自动重试。

全面记录操作日志。

提供 API 接口,方便与其他工具集成。

支持团队管理,可设置多个席位和角色。

DevDocs:一款专为程序员打造的开源文档爬取和处理工具.webp

DevDocs使用教程方法

启动服务:

使用 Docker(推荐):

克隆项目仓库:git clone https://github.com/cyberagiinc/DevDocs.git

进入项目目录:cd DevDocs

根据操作系统运行启动脚本:

Mac/Linux:./docker-start.sh

Windows:docker-start.bat

手动设置权限(Windows 用户可能需要):

通过 Windows 资源管理器:

右键单击 logs、storage、crawl_results 目录。

选择“属性”。

切换到“安全”选项卡。

点击“编辑”以更改权限。

点击“添加”以添加用户或组。

输入“Everyone”,并点击“检查名称”。

点击“确定”。

在列表中选择“Everyone”。

勾选“允许”下的“完全控制”。

点击“应用”和“确定”。

通过命令提示符(以管理员身份运行):

icaclslogs/grantEveryone:F/Ticaclsstorage/grantEveryone:F/Ticaclscrawl_results/grantEveryone:F/T

访问 DevDocs:

前端 UI:http://localhost:3001

后端 API:http://localhost:24125

Crawl4AI 服务:http://localhost:11235

查看日志:

使用 Docker 时,可以通过以下命令查看容器日志:

查看特定容器的日志:docker logs devdocs-frontend、docker logs devdocs-backend、docker logs devdocs-mcp、docker logs devdocs-crawl4ai

实时跟踪日志:docker logs -f devdocs-backend

停止服务:

在运行 docker-start 的终端中按下 Ctrl+C。

如何集成Cline/Roo

1. 创建模式:

在Roo Code中打开“模式”界面,点击+号创建一个新的模式特定提示。

2. 命名模式(例如,Research_MCP)。

3. 定义角色:

专业知识:开发者文档检索、技术综合和文档搜索。

个性:系统化、注重细节、精确。

行为指令:始终使用目录和章节访问工具来回答关于MCP文档的查询。

4. 自定义指令:

目录工具:返回完整的或过滤后的文档主题列表。

章节访问工具:检索特定文档章节的详细内容。

5. 工作流程:

解析用户查询以提取关键主题、关键词和上下文。

使用目录工具搜索文档索引以找到相关章节。

对于每个识别出的相关文档或章节,使用章节访问工具检索其内容。

合并检索到的内容,确保包含所有必要的细节,并清晰引用。

Github:https://github.com/cyberagiinc/DevDocs

官网:https://www.cyberagi.ai/

相关文章