基础知识库

在企业级 AI 应用中,通用大模型往往缺乏对特定领域知识、企业内部数据及实时业务信息的理解。

“知识库”是NebulaAI智能体平台中实现检索增强生成(RAG, Retrieval-Augmented Generation)的核心底层基础设施,该模块可以突破大语言模型(LLM)的固有知识截断与上下文长度限制,开发者可以通过创建知识分类库,将企业私域数据(包括文档、网页网页、音视频等复杂格式)转化为模型可检索、可理解的向量数据,赋予智能体专属于特定业务场景的“专家级记忆”,降低模型产生“幻觉”的概率,确保对话输出的精准性与可靠性。

1、知识库列表

  • 模糊搜索:支持通过输入知识库名称进行模糊或精确检索,帮助用户在列表中快速定位知识库。

  • 列表展示: 提供列表方式呈现所有知识库的内容数据,包括:
    • 知识库名称: 直观展示库的主题(如:测试1)以及数据组织架构(如标为“基础”类知识库)。
    • 类型: 可以查看当前知识库的类型,目前有基础/图谱两种知识库内容。
    • 描述: 简要描述知识库所涉及的内容,以便于智能体查找。
    • 创建时间: 显示当前知识库所创建的时间,便于溯源管理。
    • 快捷操作区: 提供高频的快捷管理动作,包括“编辑(铅笔图标)”用于更新基础信息,以及“删除(垃圾桶图标)”用于销毁废弃的知识库。

  • 知识库创建:右上角提供全局创建按钮,一键开启全新知识域的构建流程。

  • 知识库名称:设置知识库的名称,仅支持中文、英文、数字、下划线、中划线及英文点,字符长度限制在 1~50 个字符
  • 知识库类型:目前支持创建基础知识库(适用于常规的文档切片、向量化存储与相似度检索场景)、知识图谱(适用于需要提取实体、构建复杂业务关系网络并进行图谱推理的深度知识挖掘场景)两种类型;
  • 知识库描述:支持对知识库进行描述内容配置,便于团队协同开发时快速了解该知识库所包含的内容边界与使用场景。

2、知识库内容配置页面

2.1 知识库内容配置列表

点击进入任意指定的知识库后,即进入该知识库专属的“内容配置工作台”,该板块内容呈现的是细粒度的知识切片功能与文件管理。

  • 列表展示: 提供列表方式呈现该知识库下所使用的文件信息内容
    • 知识库名称:展示当前已上传的文件名称内容;
    • 类型:展示当前文件的上传方式,共计文档/URL/音视频三种方式;
    • 创建时间:精确记录当前文件上传的时间,确保平台资产的安全可控与版本溯源;
    • 操作:支持对已上传的内容,进行【下载】or【删除】操作;

2.2 模型引擎

开发者可在此为知识库装配最契合当前业务诉求的 RAG(检索增强生成)模型。

  • 向量模型:

功能价值:该模型的参数量级与维度直接决定了系统对知识库语义理解的细腻程,强大的大型向量模型能够跨越表面字词的匹配局限,深刻理解同义词、行业黑话乃至复杂长从句的潜在语义联系。

  • 重排序模型:

功能价值:它会将用户的具体提问与初步召回的多个文本片段进行深度的交叉注意力机制计算,重新对匹配度进行苛刻排序,它能有效剔除“含有相似关键字但逻辑无关”的干扰信息,极大提升最终投喂给大语言模型的上下文信噪比。

  • 视频理解模型

功能价值:该模型能够“看懂”企业上传的培训录像流、复杂的工艺操作视频等,提取画面中的非结构化关键行为并进行向量结构化入库,实现从“文”到“视”的跨模态数据理解与提问解答。

  • 音频理解模型

功能价值:支配配置复杂语音频段进行深度特征提取与语义降维的专用引擎,能涵盖高精度的流式 ASR(自动语音识别转写),更包含对声音情绪波动、语调变化及说话人角色的深度分离理解。

  • 全模态模型

功能价值:可以不再依赖于单模态模型的拼凑式处理,而是具备像人类一样同时综合统筹“声、视、图、文”多元关联信息的能力,在面对含有语音解说、动态图表、繁杂数据的综合性报告库时,能提供降维打击级别的全局语义认知和精准答复。

2.3 添加内容

目前支持三种知识导入策略:

  • 导入文本文档数据:涵盖全系企业级办公文档,包括 .txt, .md, .pdf, .docx, .doc, .xls, .xlsx, .ppt, .pptx,支持可视化拖拽上传

  • 读取 URL 链接数据:支持批量输入 Web 站点的 URL 地址,适用于接入企业官网帮助中心、实时更新的行业维基或在线 API 接口文档等,确保知识的时效性

  • 导入音视频数据: 支持海量多媒体格式。音频涵盖 .mp3, .wav, .flac 等;视频涵盖 .mp4, .avi, .mkv, .mov 等。单文件支持高达 500M 的超大容量。