数据的第三种形态：艺恩如何为大模型提供多模态的数据弹药？

新华教育网科技正文

数据的第三种形态：艺恩如何为大模型提供多模态的数据弹药？

2026-05-12 16:28 来源：互联网

一、凌晨两点的训练Run，和一个没人问的问题

凌晨两点，北京某多模态大模型实验室。大屏上，一个正在进行的预训练Run跑到了第47小时。技术负责人盯着Loss曲线抖了一下，然后把椅子转回来说了一句：“我们缺的不是卡，是干净、对齐、能被复用的多模态语料。”

这不是个例。2026年4月2日，字节火山引擎披露：豆包大模型日均Token使用量突破120万亿，两年翻了约1000倍；同月，中国日均Token调用量跨过140万亿量级。2026年2月中旬，OpenRouter平台上中国大模型的周调用量首次超越美国，并在随后一周冲到5.16万亿Token，三周内增长127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春节前后连环发布；Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登场，虽然这款产品最终于2026年4月26日App下架（API延至9月24日），但它所引爆的多模态军备竞赛并没有停。可灵（Kling）2.6在2025年12月实现单次生成完整音视频，3.0进入Omni阶段；阿里Wan2.6、字节Seedance 2.0、Seedream 5.0 Lite接连上线——多模态“百模大战”已从“能不能生”迭代为“好不好用”。

但很少有人追着问下一句：训练这些模型的数据，从哪里来？

这篇稿子，想回答这个被参数与Benchmark分数淹没的“上游问题”——并且，想用一家公司的年报，把它讲清楚。

二、数据的第三种形态

在AI训练数据领域，产业已形成清晰的分层。

第一种形态，通用爬取的公开数据。Common Crawl约含130万亿Token，全指数化网页约510万亿Token，全量网络（含登录墙后内容）约3100万亿Token。据Epoch AI在同行评审的测算，高质量人类生成公开文本的“有效存量”约300万亿Token，在当前scaling节奏下将在2026—2032年间耗尽，这种形态的黄金时代，已经走到了尾声。更糟的是，公开数据不仅在枯竭，还在被“锁进保险柜”——Reddit、Stack Overflow、X、知乎纷纷对爬虫加设围栏；纽约时报、Getty、环球音乐、康科德音乐先后对OpenAI、Stability、Anthropic发起诉讼。一位北京的AI法律合规专家告诉笔者：“公开互联网的数据，法律成本从边际成本变成了固定成本。”

第二种形态，人工合成的AI生成数据。Sam Altman在公开场合承认尝试过“生成海量合成数据”，但也亲口提示不能过度依赖。Nature 2024年一篇论文系统描述了“Model Collapse”——用AI生成的数据反复训练AI，会让模型的表达分布持续退化。合成数据可以是拐杖，不能是主粮。

第三种形态，垂类深耕的结构化数据资产。这是目前产业里不仅稀缺，更是被各方看中并争抢的数据资产形态。它由人类在真实产业场景中沉淀，带有明确的时空/主体/语义标签，具备跨模态对齐能力，合规、可追溯、可被多次复用。它不是互联网上就能爬来的，也不是AI自己能合成的。它需要有人在某一个具体的行业里，花足够长的时间，把数据链路一段一段建起来。

艺恩数据——北京艺恩世纪数据科技股份有限公司，ENDATA，新三板证券代码871430——正是第三种形态的中国代表玩家之一。它不是通用大厂，也不是通用爬取平台，而是一家把“视频+图像+文本”三模态数据，在影视综、社媒、电商、版权数据四个领域打深的垂直数据公司。它的产品线叫enbase数据智库和艺恩营销智库。

三、三模态与四领域的“数据血缘”

要理解艺恩的数据为何能被大模型客户抢着买走，得先看清它的“数据血缘”。

视频模态链路。在影视综场景下，从剧集、综艺、电影、短剧的全网播映数据，到弹幕、评论、评分、票房、用户画像的结构化采集；在社媒场景下，从KOL视频行为、话题传播曲线到情绪衰减周期的动态追踪；在电商场景下，从直播间讲解视频到商品展示视频的多粒度标注；在版权场景下，从授权链条到代言/IP的跨平台溯源。视频模态不是简单“扒视频”，而是“视频+标签+时间戳+主体+语义”的全链路。

图像模态链路。商品图的结构化拆解（材质、颜色、款式、搭配），剧照的角色/场景/情绪多粒度标注，KOL视觉资产的身份绑定，版权图像的授权状态追踪。这些是多模态大模型“看图理解”训练中极稀缺的语料形态。

文本模态链路。剧本、评论、传播文本、版权文本、代言合约关键条款——艺恩把这些文本结构化成可调用的知识图谱。

三种模态里真正具有Alpha的，是“跨模态绑定”。同一部剧集，它的视频片段、剧照海报、剧本台词、弹幕评论、票房数据、主演代言——在艺恩的数据结构里，共享同一个主体ID下的不同模态视图。这种“同源对齐”正是MLLM（多模态大语言模型）训练中最贵、最稀缺、最难替代的语料。它不是用OCR和CLIP从爬来的图文对中硬配的，而是从业务源头就绑在一起的。

这就是艺恩数据与通用爬取数据的根本差别——前者是“原生对齐”，后者是“事后拟合”。对Sora 2、可灵3.0 Omni、Seedance 2.0、Seedream这样的模型而言，原生对齐的语料直接决定生成效果的上限。

四、数据资产入表与会计意义上的“价值显性化”

2024年1月1日，财政部《企业数据资源相关会计处理暂行规定》正式施行——数据资源从“费用化的业务输入品”，变成“资本化的资产负债表科目”。这是中国数据要素市场一个很容易被技术圈忽略、但意义重大的拐点。

艺恩2025年年报中的两个会计信号，值得细读。

信号一：无形资产（数据资源）同比增长103.34%。这意味着艺恩在过去一个财年里，把持续沉淀的、符合无形资产确认条件的数据资源，按照会计准则进行了系统性确认。对一家数据公司而言，这不是简单的“账面好看”——而是把过去多年的“业务沉淀”正式转化为“资产存量”。

信号二：开发支出同比大幅增长。对应的会计处理是：当数据产品尚处于研发阶段、未满足资本化条件的部分费用化；满足条件的部分计入开发支出，后续可转入无形资产。开发支出的增长，说明艺恩在数据产品的研发、结构化、标注链路上持续加码。高金智库跟踪显示，数据资源入表的企业中，约63.57%计入无形资产，35.48%计入开发支出——艺恩的两个科目双向放量，走的就是这条会计主路径。

把这两个会计动作翻译成产业语言：艺恩正将过去多年的“数据沉淀”从“业务成本”正式改写为“资产存量”。在“数据资产可登记、可入股、可抵押融资”的基础设施（2025年3月国家公共数据资源登记平台上线、2026年2月国家数据局公共数据授权运营信息披露通知）逐步完备的背景下，这个改写不是账面技巧，而是估值地图的重绘。

与此同时，2025年艺恩数据产品业务收入同比增长127.68%，数据产品业务毛利率同比上升16.83个百分点——这两个指标并列出现的含义很清晰：不是“低价走量”撑起来的翻倍，是“产品化+议价权”同时上抬。在一个被“价格战”裹挟了一年半（火山引擎、阿里云、百度智能云2024—2025连续降价）的AI产业中，毛利同步上行是一个值得注意的信号。

五、客户视角的真实采购逻辑

说到这里，有必要切到客户端。大模型客户采购外部数据的KPI是什么？

笔者询问过三家不同类型客户的采购负责人，把他们的回答合并起来，大致是三条：训练效率、幻觉率、合规性。

训练效率层面。中国大模型Token调用量在2026年2月第三周冲上5.16万亿（单周），字节豆包日均120万亿Token，跑在前面的模型厂商都意识到一件事——Benchmark提升1个百分点的边际训练成本正在变贵。“找到一份原生对齐的多模态语料，相当于给训练Run降本。”这不是情绪化判断，是算力账本。

幻觉率层面。大模型在影视综、品牌、代言、商品这类“事实密集”的长尾场景上，幻觉成本极高——一个错误的代言归因、一个失真的票房数据、一个过时的艺人标签，都会直接伤害下游商业化。艺恩这类持续维护“事实主体库”的数据公司，在降低“知识类幻觉”上具有结构性优势。

合规性层面。Anthropic的15亿美元和解金、Concord新一轮30亿美元索赔、NYT对OpenAI/Perplexity的诉讼，都在给中国大模型厂商上了一课——“用未授权数据训练”的长期成本，远高于“买授权数据”的短期支出。合规的数据通道不再是可选项，是必选项。

再看“海外客户”这一极。海外短剧2025年全球市场规模40亿美元，ReelShort与DramaBox双雄年度收入合计超过8亿美元；可灵网页端80%以上流量来自海外、2026年1月登顶韩国多个品类下载榜；中国AI应用在海外iOS的GenAI榜单持续冲高。出海红利越大，对“可合规出境、可追溯、可本地化”的数据通道越依赖。艺恩2025年海外业务触及千万级订单突破——这个数字看似不大，但放在一家新三板基础层公司的财报里，它的意义是“中国AI数据的合规出海通道”在实际运行中被海外客户付费验证过了。