本技术公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。
背景技术
二维结构化表格数据是日常生产生活中最常见的数据形式,对表格数据进行查询、计算、可视化和预测分析等功能具有较为普遍的需求。随着GPT/LLAMA等典型自编码生成式大模型技术的发展,使用该项技术解决二维表数据自动化分析任务的相关研究也逐步深入。
TableLlama(2023)使用列类型标注、关系抽取、实体、行聚类、单元格问答、异形表问答、表格事实验证等几种常用表格任务数据,在Llama2-7B基础上进行了监督指令微调训练(superwised-finetuning 后面统称为SFT),在对应任务测试数据集上,获得超过GPT4的测评指标;TableLLM(2024)采用Llama2-7B和Llama2-13B为基础模型,研究了大语言模型(Large Language Model,后统称为LLM)在实际办公场景通用二维表格上的推理生成能力,并开源发布了模型的基准测评脚本代码;TableBench(2024)深入研究了表格数据在工业场景中的应用,设计并提出了包括四大类总共18个领域的表格问答(TableQA)的测评基准。同时基于自制训练数据,在DeepSeekCoder-7B,Qwen2-7B等6个模型上训练并开源了表格领域相关大模型。
除以上所述基于监督微调流派的表格领域大模型研究之外,还有基于常见Coder专家模型如DeepSeekCoder、Qwen2.5-Coder、Yi-Coder等搭建的智能体工作流(Agent-WorkFlow),通过提示词工程(Prompt-Engineering)和良好的工作流设计,来强化LLM在实际场景下表格数据分析的能力。网易数帆ChatBI、等主流BI厂家使用了如上技术方案。
然而,与一般的Sequence-to-Sequence生成任务不同,表格场景下的数据分析,其输入一般由表格(Table)和人类询问(Human-query)两个要素构成。LLM需要同时对Table和Human-query都具有较强的理解力,同时还具有很强的场景代码生成能力(如Python或SQL)。当前不论是以上基于表格数据SFT还是智能体工作流的技术方案,均存在因为过度微调或工作流固化导致的跨场景、领域泛化性差,迁移困难的问题,难以满足更为普适化的表格数据分析需求。根据LIMA(Zhou,2023)所述结论,为强化监督微调后模型的鲁棒性和泛化性,以降低模型跨场景迁移的成本和难度,需要一整套在数据层面强化训练语料的多样性和质量,同时选用适合的监督训练微调策略和参数的流程方法,解决所述当前表格领域大模型应用存在的瓶颈。
实现思路