文心千帆大模型平台操作指南揭秘!

来源: 云巴巴 2024-10-16 17:02:58

从八月底开始,国内11家首批通过《生成式人工智能服务管理暂行办法》备案的大模型获批上线,将通过Web、APP、API等方式,为全社会提供多种生成式AI服务。这也标志着在ChatGPT之后,我国自主研发的大模型产品进入快速迭代和应用阶段。

很多企业已经感受到了大模型带来的智能力量,也在积极寻找适用的大模型平台。百度一直走在大模型研发的前沿,全新升级的百度智能云千帆大模型平台,基于文心大模型重构数字政府、金融、工业、交通四大行业解决方案,发布覆盖服务营销、办公提效、生产优化三大领域的11款面向通用场景的AI原生应用。

文心千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。在使用过程中,用户对于操作问题还是一知半解,云小巴选型顾问为您带来千帆大模型平台的操作指南,还不懂的快收藏起来吧!

icon平台使用快速开始

一、前提条件

要使用百度千帆大模型平台,首先需要注册成为百度智能云用户。如您已经是开发者,可直接登录使用。

二、流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。

三、实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试。

Step1:数据导入

1、需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。

2、进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”,选择手动构建。

3、在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

Step3:训练配置

1、需要您在左侧功能栏中选择“模型精调> SFT”中创建调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。

2、选择Step1中创建的数据集进行导入,并填入数据拆分比例。

以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模

3、运行显示“运行完成”,则表示模型训练成功。

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。

Step5:发布服务

1、需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

2、按照实际需要,进行服务配置和资源配置。

3、发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。

iconSFT调优快速手册

SFT概述

什么是SFT?

有监督微调(SFT)是指采用预先训练好的神经网络模型,并针对你自己的专门任务在少量的监督数据上对其进行重新训练的技术。在千帆平台上已经预置了ERNIE-Bot系列大模型和BLOOM系列大模型。

SFT在大语言模型中的应用有以下重要原因:

任务特定性能提升:预训练语言模型通过大规模的无监督训练学习了语言的统计模式和语义表示。然而它在特定任务下的效果可能并不令人满意。通过在任务特定的有标签数据上进行微调,模型可以进一步学习任务相关的特征和模式,从而提高性能。

领域适应性:预训练语言模型可能在不同领域的数据上表现不一致。通过在特定领域的有标签数据上进行微调,可以使模型更好地适应该领域的特殊术语、结构和语义,提高在该领域任务上的效果。

数据稀缺性:某些任务可能受制于数据的稀缺性,很难获得大规模的标签数据。监督微调可以通过使用有限的标签数据来训练模型,从而在数据有限的情况下取得较好的性能。

防止过拟合:在监督微调过程中,通过使用有标签数据进行有监督训练,可以减少模型在特定任务上的过拟合风险。这是因为监督微调过程中的有标签数据可以提供更具体的任务信号,有助于约束模型的学习,避免过多地拟合预训练过程中的无监督信号。

准备数据

1、LLM大语言模型所需SFT数据

为每个示例准备文本输入和标签,以问答形式呈现。问答格式可以处理成多种文件格式, 例如JSONL, Excel File, CSV;核心是要保持两个独立的字段,即问题和答案。

2、Prompt优化

prompt优化主要在训练阶段,用于增强指令的多样性,让模型更好的理解指令。

3、数据规模、数据多样性

在SFT上数据规模的重要性低于数据质量, 通常1万条左右的精标数据即可发挥良好的效果。

在扩充数据规模时需要注意数据多样性,多样性的数据可以提高模型性能。

多样性除了从原始数据中获取,也可以通过prompt_template方式构建,对prompt指令进行数据增强,比如中文翻译英文的指令可以拓展为,中译英,翻译中文为英文等相同语义的指令。

在不扩大提示多样性的情况下扩大数据量时,收益会大大减少,而在优化数据质量时,收益会显著增加。

4、数据质量

挑选质量较高的数据,可以有效提高模型的性能。

数据质量用户需尽量自己把控,避免出现一些错误,或者无意义的内容。虽然平台也可以提供数据质量筛选的能力,但不可避免出现错筛的情况。

数据质量可以通过ppl、reward model,文本质量分类模型等方式进行初步评估。经过人工进行后续筛选。

面向不同的企业需求,文心千帆提供不同的功能服务,通过文心一言企业级推理云服务,并进行业务集成。其平台适用于对话沟通、内容创作、分析控制等业务场景,特别是工业级别的场景中,本身百度拥有几十年的搜索引擎,在数据层面的提炼已经精湛高超。

云巴巴作为一家国内领先的企业数字化转型的服务平台,致力于帮助企业实现数字化升级和优化。作为行业佼佼者,云巴巴积累了丰富的实践经验和深刻的行业洞察力,为不同行业、不同规模的企业提供个性化的解决方案。

客户群体广泛,包括金融、医疗、零售、制造等多个行业,并为众多企业创造了数字化转型的成功案例。为了更好地服务客户,云巴巴组建了一支专业的团队,具备多年的行业经验和专业技能,同时也与多个合作伙伴建立了紧密的合作关系。

百度作为云巴巴重要的合作伙伴,双方携手共同为企业用户提供更多优质的产品与服务。目前百度文心千帆的产品已在云巴巴平台上线,从云小巴平台采购文心大模型产品,可有200元福利优惠券免费领取!!如需了解更多产品信息,请扫描下方二维码与我们联系!

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

应该要怎么区分数字孪生与大数据呢

应该要怎么区分数字孪生与大数据呢

数字孪生概念,数字孪生体是现有或将有的物理实体对象的数字模型,通过实测、仿真和数据分析来实时感知、诊断、预测物理实体对象的状态,通过优化和指令来调控物理实体对象的行为,通过相关数字模型间的相互学习来进化自身,同时改进利益相关方在物理实体对象生命周期内的决策

2022-11-22 16:49:01

大数据看“云办公”,你到底是个啥?

大数据看“云办公”,你到底是个啥?

面对新冠肺炎疫情,经济发展和社会运营都受到了冲击,不少单位从线下办公“转战”线上 “云办公”或者“云上课”,成为了疫情以来大家最热议的词语之一,不少人实现了“躺在床上把钱赚”的梦想。

2020-03-10 16:58:47

大数据的特征有哪些,其结构组成是什么

大数据的特征有哪些,其结构组成是什么

大数据需要特殊的技术来高效地处理大量数据的内容限经过时间。适用于大数据的技术,包括企业大规模并行进行处理(MPP)数据库、分布式文件信息系统、数据分析挖掘、分布式网络数据库、云计算服务平台、互联网和可扩展的存储控制系统。 大数据的特征 容量,数据的大小

2022-11-22 10:08:34

面向数据应用的数据管理意义和方法

面向数据应用的数据管理意义和方法

随着时间的推移,人类一直向前进步和发展着,本文,就来和大家一起探讨一下面向数据应用的数据管理意义和方法有哪些。 传统应用系统的数据管理所关注的是数据的增值过程,它的功能的都是通过编码实现的,其功能的实现重在关注和强调业务需求内容的加载、固化的软件代码,内

2022-11-21 11:10:49

小心“杀猪盘” 不做“盘中餐”,一文带你了解如何用IP地址防范杀猪盘?

小心“杀猪盘” 不做“盘中餐”,一文带你了解如何用IP地址防范杀猪盘?

IP地址是互联网协议地址的简称,是分配给网络中每个设备的唯一标识,通过它,我们可以大致判断一个网络用户的位置。

2024-07-30 09:49:45

优化企业集成,打破数据孤岛,腾讯轻联助力企业互联互通

优化企业集成,打破数据孤岛,腾讯轻联助力企业互联互通

集成是至关重要的环节,集成意味着将各种分散的系统、应用和数据源无缝连接在一起,实现数据的实时交换和业务流程的自动化。

2024-10-16 17:04:12

严选云产品

珞安科技电力监控系统便携式运维网关 珞安科技电力监控系统便携式运维网关是珞安科技为解决电力监控系统运维过程中的种种漏洞和安全隐患而研发的一种运维安全边界设备,通过串接在运维终端与被运维对象之间,配合USBKey使用,将工作班成员、运维工具等外部要素与被运维对象等内部要素进行隔离,并对工作班成员的敏感操作、违规行为和运维工具的运行风险进行实时监督管控,防止外部网络攻击、恶意代码、违规操作等行为破坏内部系统。同时,对运维工作全过程进行日志、屏幕录像、通信报文等多维度记录,实现内部系统运维工作事前有防范、事中有监督、事后有审计的目标。系统由内置客户端安全专用密盾(用于运维终端)和平板式便携专用硬件装置构成,对整个运维检修过程进行安全管控。
深科特电子制造行业WMS仓库管理系统 MES系统可与ERP对接进行基础数据的传输(同时MES也可通过自定义创建和批量导入的方式),ERP数据同步可设置频率自动同步,系统创建同步列表可进行手动同步,确保数据传输及时性。
云栖文档云 面向企业机构的私有云存储; 部署在企业机构的内部环境或者托管在数据中心; 具有网盘通用功能和鲜明的企业特性; 可以作为平台,针对不同应用场景进行二次开发。
派迅智能iWMS仓储管理系统 派迅智能iWMS仓储管理系统智能化、无人化地实现物料从仓库到生产上线过程中的存、拣、配、核、发等一系列流转动作,通过与MES系统的集成,实现工单自动备料出库、站位信息自动列印、尾料自动盘点回库,预防呆滞料,降低错料风险。
腾讯文档地产行业解决方案 腾讯文档地产行业解决方案,多⼈实时编辑可⾏性分析投资决策汇报材料,总部-区域-城市-项⽬设计评审多组织统⼀⼝径围绕⽂档充分表达沟通,突破时间、空间限制,沉淀企业数字资产,私域运营助⼒房企线上营销服务提效。
六方云云池 云安全资源调度与管理系统 六方云云安全资源调度与管理系统是一款专门针对云计算安全的防护类产品,其内部集成了丰富的安全组件资源,包括:虚拟防火墙、虚拟入侵防御系统、虚拟入侵检测系统、虚拟运维审计系统和虚拟日志审计系统等,集中管理端能够为用户构建一个统一管理、弹性扩容、组件丰富和按需分配的云安全资源池,满足云内多租户不同应用场景下的业务安全需求。

甄选10000+数字化产品 为您免费使用

申请试用