文心千帆大模型平台操作指南揭秘!

来源: 云巴巴 2024-04-08 17:37:24

从八月底开始,国内11家首批通过《生成式人工智能服务管理暂行办法》备案的大模型获批上线,将通过Web、APP、API等方式,为全社会提供多种生成式AI服务。这也标志着在ChatGPT之后,我国自主研发的大模型产品进入快速迭代和应用阶段。

很多企业已经感受到了大模型带来的智能力量,也在积极寻找适用的大模型平台。百度一直走在大模型研发的前沿,全新升级的百度智能云千帆大模型平台,基于文心大模型重构数字政府、金融、工业、交通四大行业解决方案,发布覆盖服务营销、办公提效、生产优化三大领域的11款面向通用场景的AI原生应用。

文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。在使用过程中,用户对于操作问题还是一知半解,云小巴选型顾问为您带来千帆大模型平台的操作指南,还不懂的快收藏起来吧!

icon平台使用快速开始

一、前提条件

要使用百度千帆大模型平台,首先需要注册成为百度智能云用户。如您已经是开发者,可直接登录使用。

二、流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。

三、实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试。

Step1:数据导入

1、需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。

2、进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”,选择手动构建。

3、在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

Step3:训练配置

1、需要您在左侧功能栏中选择“模型精调> SFT”中创建调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。

2、选择Step1中创建的数据集进行导入,并填入数据拆分比例。

以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模

3、运行显示“运行完成”,则表示模型训练成功。

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

Step5:发布服务

1、需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

2、按照实际需要,进行服务配置和资源配置。

3、发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。

iconSFT调优快速手册

SFT概述

什么是SFT?

有监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了ERNIE-Bot系列大模型和BLOOM系列大模型。

SFT在大语言模型中的应用有以下重要原因:

任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而它在特定任务下的效果可能并不令人满意。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。

领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。

数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。

防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

准备数据

1、LLM大语言模型所需SFT数据

为每个示例准备文本输入和标签,以问答形式呈现。问答格式可以处理成多种文件格式, 例如JSONL, Excel File, CSV;核心是要保持两个独立的字段,即问题和答案。

2、Prompt优化

prompt优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令。

3、数据规模、数据多样性

在SFT上数据规模的重要性低于数据质量, 通常1万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能。

多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。

在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4、数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。

数据质量可以通过ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

面向不同的企业需求,文心千帆提供不同的功能服务,通过文心一言企业级推理云服务,并进行业务集成。其平台适用于对话沟通、内容创作、分析控制等业务场景,特别是工业级别的场景中,本身百度拥有几十年的搜索引擎,在数据层面的提炼已经精湛高超。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

百度作为云巴巴重要的合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前百度文心千帆的产品已在云巴巴平台上线,从云小巴平台采购文心大模型产品,可有200元福利优惠券免费领取!!如需了解更多产品信息,请扫描下方二维码与我们联系!

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

浅谈非结构化数据的特点都有哪些

浅谈非结构化数据的特点都有哪些

之前小编有谈论过什么是结构化数据,有结构化数据,也有非结构化数据。本文,就简单谈论一下什么是非结构化数据,以及非结构化数据的特点都有哪些。 非结构化数据是数据结构不规则或不完整,不方便用数据库二维逻辑表来表现的数据,没有预定义的数据模型,包括所有格式的办

2022-11-21 11:09:03

关于智能数据管理引发的新难题

关于智能数据管理引发的新难题

随着时代的进步、科技的发展,数据管理平台愈发强大,但随之而来的却是只能数据管理带来的新难题。     如果你现在去乘坐公交企业或者通过地铁的话,通常会看到这样一种情况,在公交车上或者地铁上不少的男男女女一上车时间之后我们就会掏出随身所携带的手机、

2020-04-29 16:59:24

主动的元数据管理模式是怎么样的

主动的元数据管理模式是怎么样的

时代变迁,桑海苍天,现在的互联网技术已经发展的很好了,本文,我就来讲述一下互联网技术之元数据的管理模式是怎样的,让我们快点开始吧。 每一个构件必然对应一个或多个,元模型是元数据的标准,一个构件的不同分类元模型,每一个元数据都应该遵循其对应元模型的定义。比

2022-11-21 11:09:18

数字化案例秀 ‖ 腾讯云携手树根互联,打造工业互联网新机遇

数字化案例秀 ‖ 腾讯云携手树根互联,打造工业互联网新机遇

树根互联的根云平台正是运用了腾讯云的底层架构技术,能够支持数据工程师更加便捷和高效的组建数据流水线,并对这些数据进行分析加工,为后续的市场拓展、机器运维以及商务纠纷等提供服务。

2024-03-27 13:57:21

大数据应用:理解“替代数据”的必要性

大数据应用:理解“替代数据”的必要性

从多家有名大数据公司内部人员被警方带走,到《小我金融信息(数据)保护试行办法》酝酿出台的消息在业内传开,个人隐私保护的话题在金融行业再度升温,在金融服务行业中,大数据的应用带来了人工进行智能和科技化的成果,带来了过去几十年都不曾发生的突飞猛进

2020-03-13 16:48:59

怎么理解百度大数据引擎

怎么理解百度大数据引擎

大数据引擎也就是百度大数据引擎,指的是对大数据进行研究,收集,存储,计算,挖掘和管理。

2020-03-12 17:06:59

严选云产品

联软科技政务外网5G专网零信任二次鉴权解决方案 联软科技政务外网5G专网零信任二次鉴权解决方案通过零信任技术,使政务应用系统“隐身”,仅合法终端能访问; 采用应用代理模式,隐藏访问政务应用的真实地址,缩小攻击面。 网络隔离,防范跳板攻击。通过单网通策略,同一台终端无法访问两张网络,防止互联网攻击以终端为跳板,攻击电子政务外网。
七牛云智能多媒体服务 智能多媒体服务(Dora),是一种零运维、高可用、高性能的多媒体数据处理服务。提供图片处理、音视频转码、水印、截图、瘦身等基础功能,并基于海量数据深度学习,对媒体内容实现智能审核、智能识别、智能标签。
数字认证密码云服务平台 数字认证密码云服务平台以商用密码技术、产品、服务及相关标准规范为基础,有效整合各类密码资源和密码业务,形成了覆盖 CRaaS、CFaaS、CBaaS 三层完备的密码服务供给体系,能够面向业务提供泛在化、多元化、安全可控的密码服务。同时,该平台具备自动化、智能化、可视化的密码运营能力,有效实现了全栈密码服务的可管可控。
博睿宏远全链路云压测 Bonree LoadTest通过上传脚本或自定义编写脚本,构建最接近真实业务的场景,快速获取到性能、错误、失败和主机数据,捕捉慢请求和失败快照。衡量应用的业务性能状况,快速定位性能问题。
飞画flyDrop飞屏显示控制系统 是一款专业的多媒体展览展示控 制管理软件,系统采用先进的软件技术,创新性地将内容、智能设备(声光电)融为一体,为展厅、智慧运营中心、智慧楼宇等展览展示场景提供灵活、简单、 易用的控制解决方案,大大提高对创意内容、屏幕、空间、设备的调度能力,赋能屏幕,赋能智 慧生活。
易安联NTA零信任异常流量感知平台 易安联NTA零信任异常流量感知平台,实现对非法通信行为和各类网络威胁的监控,提供全方位安全事件监测能力,以及各类网络事件溯源取证的综合分析能力。

甄选10000+数字化产品 为您免费使用

申请试用