大模型高质量语料缘何短缺？-知多少教育网-记录每日最新科研教育资讯

大模型高质量语料缘何短缺？

发布时间: 3830次浏览

　　近期，谷歌官方发布免费开放Gemini pro等系列API(应用程序编程接口)。Gemini发布后仅一天，就有网友实测发现，谷歌的大型模型Gemini承认其使用百度“文心一言”来训练中文训练数据(语料)。当被问及身份和创始人时，Gemini称自己是“百度文心大模型”，并指出其创始人为李彦宏。无独有偶，早在2023年3月，就有消息爆出谷歌的Bard模型部分训练数据来源于ChatGPT。

　　“对于从头开始训练的模型，语料短缺会在非常大程度上限制大模型发展。”近日，哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报采访时表示，“增加语料对于提升大模型能力的边际效益正在减弱，高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”

　　高质量语料短缺成为全球共性问题

　　科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示，从全球已发布的大模型数量来看，中国和美国大幅领先，占全球总数的80%以上。

　　虽然大模型发展如火如荼，但大模型高质量语料短缺已成为全球共性问题。麻省理工学院等高校研究人员预测，到2026年之前，机器学习数据集可能会耗尽所有可用的高质量语料数据。

　　大语言模型对数据供给要求极高。公开数据显示，训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。OpenAI也公开表达过对数据告急的担忧。

　　研究机构EpochAI亦公开表示，最早在2024年，人类就可能会陷入训练数据荒，届时全世界的高质量训练数据都将面临枯竭。

　　值得注意的是，当前大模型数据集主要为英文，如BooksCorpus、WiKipedia、Common Crawl、ROOT等，其语料短缺尚难解决，中文语料库面临的问题更为严峻。

　　中国工程院院士、鹏城实验室主任高文曾公开表示，全球通用的50亿大模型数据训练集里，中文语料占比仅为1.3%。

　　上海数据交易所市场发展部副总经理章健此前公开表示，当前大模型行业存在语料供应不足的问题，特别在垂直细分领域，一些共享、免费下载的语料数量虽然大，质量却不高。“我们在追求语料数量增长的同时，也要重视质量，是不是高质量的语料数据。”

　　阿里研究院在《中美大模型的竞争之路：从训练数据讲起》公开撰文称，中文语料、科研成果等高质量数据集开放程度低，企业用于训练的语料来源不清晰、权属不明确，开源后存在一定的合规隐患，使得企业更倾向于自采、自用，大模型数据流通机制尚未形成。

　　如何定义高质量语料？

　　何为高质量语料?记者采访时，包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案，即高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害，且相关特征呈现进阶式分布。

　　邵睿表示，高质量语料具有多样性高、句式流畅的特点。关于语料长度和领域的数据，分布多样且平衡。

　　腾讯机器学习平台算法负责人康战辉认为，高质量语料的多样性涵盖不同类型的文本，如新闻、小说、诗歌、科技文章等，“这有助于大模型学习到更丰富的语言表达。”

　　而大规模则体现在：大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足语料，模型才能更好地捕捉细微的语言特征。

　　与此同时，合法性则要求语料库中的文本应该是合法且无害，不合法或有害的文本可能导致模型产生不恰当的回答或建议，或无意中泄露隐私。

　　“高质量语料应该具有真实性和连贯性，以便让大模型更好地理解语境并生成符合逻辑的响应。”康战辉说，语料库应该充分反映语料的多样性并避免偏见，这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。

　　商汤科技发言人表示：“要解决数据问题，不只是单纯的增加数据总量，还需要提高数据质量，甚至要考虑怎么设计数据的所有权和交换机制，推动人工智能数据基础设施化。”

　　破题高质量语料短缺方法近似

　　记者采访中了解到，对于高质量语料短缺的问题，业内目前主要采取语料清洗筛选、标注分类、预训练语言模型、建立共享和协作的平台等方式。

　　“腾讯大模型的语料资源，从训练阶段可以至少分为预训练底座数据和精调指令数据。”康战辉介绍，其数据来源以业界公开的互联网数据为主，如腾讯自有QQ浏览器网页搜索的优质中文网页索引，包括搜狗百科在内中文百科等数据，以及来自腾讯各业务自有的公开资讯、知识性数据收集(腾讯新闻语料、微信公众号文章、腾讯医典等)。

　　康战辉透露，腾讯也会采买部分授权数据进行训练，主要为各类通俗和专业书籍、学科教材、翻译语料等非公开互联网可直接下载或者电子化程度不够高的知识类数据。

　　与康战辉的答案类似，邵睿也透露，语料有一部分从数据公司购买，有一部分从网络公开语料或者公开数据集中获取并整理使用。

　　“数据公司购买的优点是质量较高，并且大多有垂域数据。缺点是数据量较少价格较贵。”邵睿对比称，“网络公开语料的优点是通用性较好，数据量大，缺点是数据质量无法保证，数据格式难以统一。”

　　“人类历史上所产生的有效信息，包括大量的高价值信息可能不一定是互联网数据，而是沉散在各行各业里的数据。”商汤科技发言人认为，“怎样更多汇聚数据，设计更多、更好的网络结构，用更多的计算资源去支撑更大容量的高质量语料，产生更强的智能，这可能是一个长期持续的话题。”

　　而在现阶段高质量语料短缺情况下，如何训练出更“聪明”的大模型?从互联网“大厂”过往实践路径中可窥探一二。例如：腾讯混元大模型立足于完全自研，采用机器指令半自动化扩展，辅助人工最终标注、改写的方式来自研构建。

　　OpenAI在无数场合介绍过GPT4训练的经验，但从未公开过数据清洗的经验，可谓训练大模型顶级机密。

　　商汤科技发言人则表示，在数据清洗的过程中投入了上千块GPU的算力，并建立起大量系统化、工程化的途径来进行数据配方的试错，可迅速发现大数据库中的有效数据再到小参数模型上进行验证。

　　多措并举补齐高质量语料短缺

　　数据、算法、算力是AI发展三要素，通俗来讲数据犹如食材、算法好比食谱、算力则是烹饪工具。尽管高质量语料短缺已成为全球共性问题，且破题高质量语料短缺方法近似，但业界正试图通过多种方式补齐高质量语料短缺问题。

　　记者梳理发现，2023年7月，深圳数交所联合近50家单位成立“开放算料联盟”。该联盟将围绕高质量中文训练数据和多模态训练数据，协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定，协助数据交易所增加与大模型相关的新品类和新专区。

　　同样是2023年7月，在2023世界人工智能大会现场，中国大模型语料数据联盟成立。同年8月，上海人工智能实验室宣布，联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。本次开源的数据总量超过2TB，包含超5亿个文本、2200万个图文交错文档、1000个影像视频。

　　1月2日，广东省政务服务数据管理局在官网发布《广东省加快数字政府领域通用人工智能应用工作方案》，透露广东政务大模型发展路线图。