使用 Amazon SageMaker Canvas 和生成性 AI 赋能您的业务用户,从公司文档中
利用 Amazon SageMaker Canvas 和生成式 AI 提升企业用户从公司文档中提取见解的能力
作者:Davide Gallitelli Bilal Alam Dan Sinnreich Pashmeen Mistry发布日期:2023年10月26日发表于:AWS 机器学习部落格
重要内容回顾
企业正在利用机器学习 (ML) 来解决复杂问题并改善业务结果。Amazon SageMaker Canvas 使业务分析师能够在无需编码的情况下构建和使用各种 ML 模型。在最新的更新中,SageMaker Canvas 增强了对基础模型的支持,允许用户从企业数据中提问并获得更具针对性的回应。通过检索增强生成 (RAG) 方法,企业能减少生成的错误信息,提高精确度。用户可以通过简单的设置步骤将 SageMaker Canvas 与 Amazon Kendra 连接,以便更高效地查询文档。许多企业正在努力利用机器学习ML来解决复杂的问题和改善业务成果。不过,在此之前,构建和部署 ML 模型通常需要深厚的技术和编码技能,包括调整 ML 模型和维护运行管道。自 2021 年推出以来,Amazon SageMaker Canvas 使业务分析师能够构建、部署和使用各类 ML 模型,包括表格数据、计算机视觉和自然语言处理,无需编写代码。这加速了企业应用 ML 的能力,广泛应用于时序预测、客户流失预测、情绪分析、工业缺陷检测等场景。
在2023年10月5日的公告中,SageMaker Canvas 扩展了其模型支持,新增了基础模型FMs用于生成和总结内容的大型语言模型。随著2023年10月12日的更新,SageMaker Canvas 现在允许用户基于他们的企业数据提问并获得回应,确保结果针对性强,这为无代码 ML 解决业务问题开创了更多的用例。例如,业务团队现在可以以组织特定的词汇和准则来制定回应,并更快地查询冗长文档,以获得与内容具体相关的回答。在整个过程中,所有内容的处理都是私密且安全的,确保所有敏感数据都能按照适当的治理和保障措施进行访问。
方案概述
基础模型可能会产生不合适的回应,这被称为“幻觉”hallucination这些回答往往是一般性、模糊、不相关或者事实上不正确的。利用检索增强生成RAG的方法可有效降低幻觉的出现。RAG 架构会从基础模型之外检索数据,然后利用这些数据来进行上下文学习,解答用户的问题,以确保基础模型能使用可靠的知识库的数据来回答问题,从而降低幻觉的风险。
透过 RAG,外部数据来源可来自不同的数据库,例如文档库、数据库或 API。第一步是将您的文档和任何用户查询转换为兼容格式,进而进行相关的语义搜索。为了使格式兼容,文档集合或知识库以及用户提出的查询会通过嵌入模型转换为数字表示。
随著本次更新,RAG 功能以无代码的流畅方式提供给用户。企业可以利用 Amazon Kendra 作为基础的知识管理系统,丰富 Canvas 的聊天体验。下图展示了解决方案的架构。

将 SageMaker Canvas 连接到 Amazon Kendra 需要一次性设置详情。在《设置 Canvas 以查询文档》文档中描述了设置过程。如果您尚未设置 SageMaker 域,请参阅如何入门 Amazon SageMaker Domain。
在域配置中,云管理员可以选择一个或多个 Kendra 索引,以供业务分析师在通过 SageMaker Canvas 与基础模型互动时进行查询。
配置 Canvas 查询文档
接下来,我们将指导您完成如何设置 Canvas,以查询通过 Kendra 索引提供的文档所需的步骤。您应具备以下先决条件:
SageMaker 域设置 入门 Amazon SageMaker Domain创建一个或多个Kendra 索引设置 Kendra Amazon S3 连接器 参照Amazon S3 连接器,将 PDF 文件和其他文档上传到与 Kendra 索引相关的 Amazon S3 存储桶中。设置 IAM,以便 Canvas 拥有相应的权限,包括调用 Amazon Bedrock 或 SageMaker 端点所需的权限 参见设置 Canvas 聊天文档。完成必要设置后,您可以更新域,以便访问所需的索引。在 SageMaker 控制台中,针对该域,在域设置标签下选择“编辑”。在 Canvas 设置步骤中,启用“使用 Amazon Kendra 查询文档”切换,选择要与 Canvas 使用的一个或多个 Kendra 索引。
至此,Canvas 查询文档功能的配置完成。用户现在可以在 Canvas 中启动聊天,使用通过 Kendra 索引连接到域的知识库。知识库的维护者可以继续更新真实数据来源,得益于 Kendra 的同步能力,聊天用户将能自动使用最新信息。
使用查询文档功能进行聊天
作为 SageMaker Canvas 的用户,您可以在聊天中访问查询文档功能。要启动聊天会话,请在 SageMaker Canvas 的“现成模型”标签中点击或搜索“生成、提取和总结内容”按钮。
进入聊天界面后,您可以在屏幕顶部使用开关来启用或禁用查询文档。查看信息提示以了解更多有关此功能的详细信息。
当查询文档功能被启用后,您可以从云管理员启用的 Kendra 索引列表中进行选择。
在开始新的聊天时,您可以选择一个索引,然后在用户体验中提问,系统会自动从所选索引中提取知识。请注意,聊天一旦开始针对特定索引,就无法切换到其他索引。
对于所提问的问题,聊天会显示基础模型生成的答案,以及提供该答案的源文档。当点击任何源文档时,Canvas 会打开该文档的预览,突出显示基础模型所使用的摘录部分。
结论
对话式 AI 潜力无穷,可以彻底改变客户和员工的体验,提供自然直观的互动,包括:
对特定话题进行的研究,以及搜索和浏览组织知识库快速汇总大量内容以获取见解搜索实体、情感、个人识别信息 (PII) 和其他有用数据,从而增加非结构化内容的商业价值为文档和商务信函生成草稿从不同的内部资源如事件、聊天记录、维基创建知识文章通过创新的聊天界面、知识检索和基础模型的整合,使企业能够依托其领域知识和真实数据来源,为用户问题提供准确且相关的回应。
将 SageMaker Canvas 连接到 Amazon Kendra 的知识库后,组织可以在自有环境中保持其专有数据,同时享受基础模型的自然语言能力。随著 SageMaker Canvas 查询文档功能的推出,我们使得任何企业都能轻松利用大型语言模型,将其企业知识作为真实数据来源来支持安全的聊天体验。所有这些功能都以无代码的格式提供,避免企业处理重复和非专业化的任务。
要了解有关 SageMaker Canvas 的更多信息,以及如何帮助每个人更容易开始机器学习,请查看 SageMaker Canvas 宣布。了解 SageMaker Canvas 如何促进数据科学家和业务分析师之间的协作,请阅读 构建、分享和部署 的文章。最后,欲了解如何创建自己的检索增强生成工作流,请参考 SageMaker JumpStart RAG。
参考文献
Lewis P Perez E Piktus A Petroni F Karpukhin V Goyal N Kttler H Lewis M Yih W Rocktschel T Riedel S Kiela D (2020) RetrievalAugmented Generation for KnowledgeIntensive NLP Tasks Advances in Neural Information Processing Systems 33 94599474
关于作者
Davide Gallitelli 是 AI/ML 的高级解决方案架构师,常驻布鲁塞尔,他与全球的客户密切合作,帮助他们采用低代码/无代码的机器学习技术和生成式 AI。自小便热衷编程,7 岁起便开始编码,并在大学开始学习 AI/ML,至今对该领域情有独钟。
Bilal Alam 是 AWS 的企业解决方案架构师,专注于金融服务行业。他的工作主要是协助客户构建、提升和保障其 AWS 环境,以便部署关键工作负载。他在电信、网络和软件开发方面具有丰富经验,最近则致力于利用 AI/ML 解决业务问题。
Pashmeen Mistry 是 AWS 的高级产品经理,工作之外他喜爱冒险徒步旅行、摄影及与家人共度光阴。
Dan Sinnreich 是 AWS 的高级产品经理,致力于民主化低代码/无代码机器学习。在加入 AWS 之前,Dan 创建并商品化了企业 SaaS 平台和机构投资者使用的时间序列模型,以管理风险和构建最佳投资组合。工作之余,他喜欢打冰球、潜水以及阅读科幻小说。
啊哈加速器安卓版
从 Amazon CloudSearch 过渡到 Amazon OpenSearch Service
从 Amazon CloudSearch 迁移到 Amazon OpenSearch 服务作者:Arvind Mahesh 和 Jon Handler,日期:2024年7月25日在 Amazon CloudSearch 和 Amazon OpenSearch 服务 上发布永久链接评论 分享我们经过深思熟虑,决定将于2024年7月25日起停止新客户访问 Amazon CloudSearch。现有的 ...
增强数据隐私:为 Amazon Bedrock 代理提供分层授权 安全博客
提升 Amazon Bedrock 代理的数据隐私透过分层授权作者:Jeremy Ware、Yuri Duchovny 和 Jason Garman,发表于2024年10月2日,文章连结:Amazon Bedrock主要要点在使用生成性 AI 的过程中,客户发现了多项优势,但这也带来了对应用程序威胁模型的新考量。特别是当使用 Amazon Bedrock 时,必须考虑数据控制挑战和安全性。本文章讨...