近年来✿◈✿ღ,大模型发展主要由大型科技公司主导✿◈✿ღ,其领先的核心在于规模庞大且高质量的数据资源✿◈✿ღ。然而✿◈✿ღ,这些公司通常并不公开其原始数据及数据处理工具✿◈✿ღ,使得学术界在大模型训练数据的构建与优化方面难以追赶✿◈✿ღ,受制甚深✿◈✿ღ。

  尽管近年来开源了大量数据集✿◈✿ღ,学术界在大模型数据准备方面仍面临诸多挑战✿◈✿ღ。目前✿◈✿ღ,大模型训练数据的清洗与构建仍主要依赖各个研究团队 “闭门造车”✿◈✿ღ,缺乏系统化✿◈✿ღ、高效的工具支持✿◈✿ღ。现有的数据处理工具如 Hadoop 和 Spark 等✿◈✿ღ,支持的操作算子大多偏向传统方法✿◈✿ღ,尚未有效集成基于最新大语言模型(LLMs)的智能算子夏目贵志bg✿◈✿ღ,对于构建先进大模型的训练数据支持有限✿◈✿ღ。

  为此✿◈✿ღ,张文涛和鄂维南院士团队提出了以数据为中心的 AI 系统DataFlow✿◈✿ღ。它系统实现了 100 余个基于规则✿◈✿ღ、本地大模型或大模型 API 的数据治理算子(Operators)✿◈✿ღ,并在此基础上构建 8 条预设数据处理流水线(Pipeline)✿◈✿ღ,包括✿◈✿ღ:大规模嘈杂数据(如 PDF 文档✿◈✿ღ、纯文本✿◈✿ღ、低质量问答数据✿◈✿ღ、爬虫数据等)的清洗✿◈✿ღ、扩增与评估✿◈✿ღ;带有思维链的强推理数据合成✿◈✿ღ;RAG 数据提取与合成等等主流数据治理需求✿◈✿ღ。该系统可供用户灵活组织现有算子✿◈✿ღ,开发新算子✿◈✿ღ,修改现有流水线✿◈✿ღ,组装定制化流水线✿◈✿ღ,以满足多样的数据治理任务✿◈✿ღ。

  目前 DataFlow 全面支持文本模态的数据治理✿◈✿ღ,可供大语言模型(LLM)的预训练(Pre-training)夏目贵志bg✿◈✿ღ、有监督微调(Supervised Finetuning)尊龙凯时人生就是博✿◈✿ღ、强化学习微调(Reinforcement Finetuning )使用✿◈✿ღ。经过治理的数据可以有效提升大语言模型在通用领域的推理能力和检索能力✿◈✿ღ,与医疗✿◈✿ღ、金融✿◈✿ღ、法律等特定领域的性能✿◈✿ღ。此外✿◈✿ღ,多模态版本的 DataFlow 正在如火如荼开发中凯时✿◈✿ღ。✿◈✿ღ,会在不久的将来与大家见面✿◈✿ღ。

  DataFlow 框架的数据处理逻辑主要分为算子层(operator) 和流水线层(pipeline)✿◈✿ღ。其次✿◈✿ღ,DataFlow 通过数据管理类(storage)实现读写管理尊龙 ag尊龙凯时(China)人生就是博!✿◈✿ღ!✿◈✿ღ,大模型后端类(LLMServing)支持算子调用大模型尊龙 ag✿◈✿ღ,进而实现对数据的复杂过滤✿◈✿ღ、扩增和评分✿◈✿ღ。此外✿◈✿ღ,我们还设计了 Agent for DataFlow 模块✿◈✿ღ。使用大模型 Agent 实现多种智能数据治理功能✿◈✿ღ:(1) 根据用户描述自动编排算子构成新 Pipeline (2) 根据用户描述自动编写新算子 (3) Agent 自动解决数据分析任务✿◈✿ღ。

  数据管理✿◈✿ღ:DataFlow 现阶段主要支持大模型文本数据处理人生就是博(中国区)集团官方网站✿◈✿ღ,为提高易用性✿◈✿ღ,DataFlow 内核使用 pandas 的 DataFrame 数据表作为载体实现读写数据✿◈✿ღ。

  (1)使用 vLLM 或 SGLang 作为本地推理后端✿◈✿ღ,在本地 GPU 部署大模型作为推理服务✿◈✿ღ。支持算子决策✿◈✿ღ。

  (2)使用 request 方式向大模型服务商的 API(如 ChatGPT✿◈✿ღ,Deepseek)发起请求✿◈✿ღ,并支持多进程并发请求✿◈✿ღ。

  DataFlow 算子是基本数据处理单元✿◈✿ღ,通常基于规则✿◈✿ღ、深度学习模型或大语言模型(LLM)实现处理逻辑✿◈✿ღ。

  DataFlow Pipeline是对多个 DataFlow 算子的有序编排✿◈✿ღ,旨在完成一个完整的数据处理任务✿◈✿ღ。DataFlow 目前提供了 8 条完整流水线以供参考✿◈✿ღ,用户可以自定义修改✿◈✿ღ。

  DataFlow Agent是一个基于多智能体协同的自动化任务处理系统✿◈✿ღ,覆盖 “任务拆解 → 工具注册 → 调度执行 → 结果验证 → 报告生成” 完整流程✿◈✿ღ,致力于复杂任务的智能化管理与执行✿◈✿ღ。

  评估算子示例✿◈✿ღ:我们主要通过 “通用评估算子” 和 “专有评估算子” 进行评估✿◈✿ღ。以通用算子为例✿◈✿ღ,主要包含文本结构✿◈✿ღ、多样性和复杂性✿◈✿ღ、安全性✿◈✿ღ、流畅性和可理解性✿◈✿ღ、教育价值✿◈✿ღ、内容准确性和有效性等维度✿◈✿ღ。

  2. 答案生成与处理✿◈✿ღ:根据问题的标准答案或模型生成的答案进行处理✿◈✿ღ,包括格式过滤✿◈✿ღ、长度过滤和正确性验证等✿◈✿ღ。

  Agent 主要由以下六个模块组成✿◈✿ღ,可以添加算子并且编排已有算子✿◈✿ღ,以实现自动的数据处理流水线夏目贵志bg尊龙 ag✿◈✿ღ。

  DataFlow 借鉴了 PyTorch 的风格的算子组织与调用方式✿◈✿ღ,算子声明通过__init__函数实现✿◈✿ღ,算子运行通过 run 函数实现夏目贵志bg✿◈✿ღ。接口简明清晰✿◈✿ღ,易于上手✿◈✿ღ。

  我们还提供了详细的教程文档✿◈✿ღ,也欢迎开源社区提出有趣的见解✿◈✿ღ,一起丰富完善文档内容✿◈✿ღ,让 DataFlow 更加新手友好夏目贵志bg✿◈✿ღ,利于上手✿◈✿ღ。

  无代码拖拽式 Pipeline 搭建✿◈✿ღ:满足需要针对业务场景个性化定制 / 微调 pipeline 的需求尊龙 ag✿◈✿ღ。

  Agent 自动化 Pipeline 设计✿◈✿ღ:通过多轮对话理解并分析客户需求人生就是博中国区官方网站✿◈✿ღ,✿◈✿ღ,给出合理的数据过滤✿◈✿ღ、数据合成夏目贵志bg✿◈✿ღ、pipeline 调整等建议✿◈✿ღ,确认后可一键配置尊龙 ag✿◈✿ღ。


上一篇 : 尊龙凯时 - 人生就是搏!|水母网论坛|苹果联合哥伦比亚大学开发AI系统Scen
下一篇 : 尊龙官网重庆全国首创|美尔雅期货博易大师|食品标签AI巡检系统


人生就是博(中国区)集团官方网站| http://www.uxyan.com