新浪科技讯 9 月 25 日下午消息 , 近日 , 国内 AI 训练数据头部服务商——云测数据宣布发布面向垂直行业大模型 AI 数据解决方案 , 面向企业提供包括基础数据集、数据定制化采集标注和标注平台工具等服务 , 提供从持续预训练、任务微调、评测联调测试到应用发布的端到端过程中的高质高效数据 , 为垂直行业大模型应用落地提供关键支撑。
在与新浪科技沟通中 , 云测数据贾宇航表示 , 通用大模型到垂直行业大模型的落地主要会经历三个阶段 , 分别是持续训练、微调以及行业联评 , 只有当走完这些环节以后 , 面向垂直行业领域的大模型才能正式地在特定行业领域投入使用。
据介绍 , 目前云测数据的该大模型数据解决的该方案 , 已经在电商、金融、保险等行业内进行落地应用。
当前 , 大模型在各领域中百花齐放 , 但大模型产业化仍面临诸多挑战。其中 , 优质数据作为大模型发展最为核心的要素之一 , 如何获取、使用垂直行业的高质量 AI 数据仍困扰着诸多企业。
据贾宇航介绍 , 此次云测数据发布的垂直行业大模型数据解决方案 , 凭借云测数据在数据采集方面的专业能力和丰富数据资源 , 可以高效获取不同场景 ( 如图像Fun88app官网、视频、文本等 ) 所需的大规模多样化高价值数据 , 为企业大模型的训练提供可靠的场景数据源。
贾宇航介绍指出 , 在从通用大模型走向垂直行业大模型的过程中 , 垂直行业大模型的运用落地需走过三个重要阶段 , 分别是持续训练、微调以及行业联评。在持续性训练阶段 , 需要基于垂直行业数据 , 让大模型去学习并了解垂直领域到底需要哪些数据 ; 之后会进入微调阶段 , 通过人为干预或特定标注等方式 , 让大模型能够以更加贴合具体场景需求的方式去生成内容 ; 最后还需要通过行业联评等方式 , 让合格的模型通过 , 不合格的再去做一些更具体的微调。
据介绍 , 在面对微调任务领域 , 云测数据提供的方案会根据大模型落地场景特点 , 提供包含 QA-instruct、prompt 等文本类任务项目和多模态大模型的相关能力支持。在完成微调后通过云测数据垂直领域的人员和专家积累 + 评测体系等服务 , 帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台 , 将难例数据回流完成清洗标注 , 为更有效率的模型调优做准备 , 并实现标注精准度最高可达 99.99% 的高质量交付。
伴随着大模型技术的出现与快速普及 , 与大模型技术发展强相关的算力、算法、数据等服务需求也得以催生。与之相对应的 , 国内众多科技互联网企业也纷纷推出了与之相对应的服务。
据贾宇航介绍 , 在大模型数据服务领域 , 云测数据从 2017 年做数据服务开始 , 便长期以场景化数据服务为起点 , 在电商、汽车出行、家居、金融、智慧城市等领域进行深耕布局。因此 , 在特定的行业领域 , 云测数据拥有丰富的行业 AI 数据服务、技术能力积累。
目前 , 云测垂直行业大模型数据服务方案 , 已经在电商、金融、保险等场景展开落地。贾宇航介绍指出 , 目前国内大模型行业发展刚开始起步 , 更多的企业布局仍处于从 0 到 1 阶段。因此 , 公司在面向大模型企业提供服务的同时 , 也会面向更多有大模型使用需求的非技术型企业提供服务。
此前 , 英伟达创始人黄仁勋曾将基于 GPT3.5 大模型的 ChatGPT 出现 , 定义为生成式 AI 技术发展的 iPhone 时刻 。但在贾宇航看来 , 目前距离真正的大模型 iPhone 时刻 到来 , 还有一段时间。
大模型这一项技术 , 正逐渐被应用在很多的 AI 应用、研发的企业中。但其实真正的 iPhone 时刻更多的还是从交互逻辑上去讲的 , 并不是从技术角度去讲。 贾宇航表示。在他看来 , 大模型还远远没有到自己的 iPhone 时刻 Fun88app官网。
在他看来 , 未来大模型可能会存在三个类别 : 第一类是围绕用户自身的终端大模型 , 更多是用来记录用户行为、喜好的 , 相当于一个用户 ID。第二类是特定垂直领域大模型 , 具备自己的专业知识和能力 , 会于用户的 ID 去登录并提供对应的服务。第三类是通用大模型 , 未来将成为类似操作系统一类的存在。 ( 文猛 )