数据的第三种形态:艺恩如何为大模型提供多模态的数据弹药?
一、凌晨两点的训练Run,和一个没人问的问题
凌晨两点,北京某多模态大模型实验室。大屏上,一个正在进行的预训练Run跑到了第47小时。技术负责人盯着Loss曲线抖了一下,然后把椅子转回来说了一句:“我们缺的不是卡,是干净、对齐、能被复用的多模态语料。”
这不是个例。2026年4月2日,字节火山引擎披露:豆包大模型日均Token使用量突破120万亿,两年翻了约1000倍;同月,中国日均Token调用量跨过140万亿量级。2026年2月中旬,OpenRouter平台上中国大模型的周调用量首次超越美国,并在随后一周冲到5.16万亿Token,三周内增长127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春节前后连环发布;Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登场,虽然这款产品最终于2026年4月26日App下架(API延至9月24日),但它所引爆的多模态军备竞赛并没有停。可灵(Kling)2.6在2025年12月实现单次生成完整音视频,3.0进入Omni阶段;阿里Wan2.6、字节Seedance 2.0、Seedream 5.0 Lite接连上线——多模态“百模大战”已从“能不能生”迭代为“好不好用”。
但很少有人追着问下一句:训练这些模型的数据,从哪里来?
这篇稿子,想回答这个被参数与Benchmark分数淹没的“上游问题”——并且,想用一家公司的年报,把它讲清楚。
二、数据的第三种形态
在AI训练数据领域,产业已形成清晰的分层。
第一种形态,通用爬取的公开数据。Common Crawl约含130万亿Token,全指数化网页约510万亿Token,全量网络(含登录墙后内容)约3100万亿Token。据Epoch AI在同行评审的测算,高质量人类生成公开文本的“有效存量”约300万亿Token,在当前scaling节奏下将在2026—2032年间耗尽,这种形态的黄金时代,已经走到了尾声。更糟的是,公开数据不仅在枯竭,还在被“锁进保险柜”——Reddit、Stack Overflow、X、知乎纷纷对爬虫加设围栏;纽约时报、Getty、环球音乐、康科德音乐先后对OpenAI、Stability、Anthropic发起诉讼。一位北京的AI法律合规专家告诉笔者:“公开互联网的数据,法律成本从边际成本变成了固定成本。”
第二种形态,人工合成的AI生成数据。Sam Altman在公开场合承认尝试过“生成海量合成数据”,但也亲口提示不能过度依赖。Nature 2024年一篇论文系统描述了“Model Collapse”——用AI生成的数据反复训练AI,会让模型的表达分布持续退化。合成数据可以是拐杖,不能是主粮。
第三种形态,垂类深耕的结构化数据资产。这是目前产业里不仅稀缺,更是被各方看中并争抢的数据资产形态。它由人类在真实产业场景中沉淀,带有明确的时空/主体/语义标签,具备跨模态对齐能力,合规、可追溯、可被多次复用。它不是互联网上就能爬来的,也不是AI自己能合成的。它需要有人在某一个具体的行业里,花足够长的时间,把数据链路一段一段建起来。
艺恩数据——北京艺恩世纪数据科技股份有限公司,ENDATA,新三板证券代码871430——正是第三种形态的中国代表玩家之一。它不是通用大厂,也不是通用爬取平台,而是一家把“视频+图像+文本”三模态数据,在影视综、社媒、电商、版权数据四个领域打深的垂直数据公司。它的产品线叫enbase数据智库和艺恩营销智库。
三、三模态与四领域的“数据血缘”
要理解艺恩的数据为何能被大模型客户抢着买走,得先看清它的“数据血缘”。
视频模态链路。在影视综场景下,从剧集、综艺、电影、短剧的全网播映数据,到弹幕、评论、评分、票房、用户画像的结构化采集;在社媒场景下,从KOL视频行为、话题传播曲线到情绪衰减周期的动态追踪;在电商场景下,从直播间讲解视频到商品展示视频的多粒度标注;在版权场景下,从授权链条到代言/IP的跨平台溯源。视频模态不是简单“扒视频”,而是“视频+标签+时间戳+主体+语义”的全链路。
图像模态链路。商品图的结构化拆解(材质、颜色、款式、搭配),剧照的角色/场景/情绪多粒度标注,KOL视觉资产的身份绑定,版权图像的授权状态追踪。这些是多模态大模型“看图理解”训练中极稀缺的语料形态。
文本模态链路。剧本、评论、传播文本、版权文本、代言合约关键条款——艺恩把这些文本结构化成可调用的知识图谱。
三种模态里真正具有Alpha的,是“跨模态绑定”。同一部剧集,它的视频片段、剧照海报、剧本台词、弹幕评论、票房数据、主演代言——在艺恩的数据结构里,共享同一个主体ID下的不同模态视图。这种“同源对齐”正是MLLM(多模态大语言模型)训练中最贵、最稀缺、最难替代的语料。它不是用OCR和CLIP从爬来的图文对中硬配的,而是从业务源头就绑在一起的。
这就是艺恩数据与通用爬取数据的根本差别——前者是“原生对齐”,后者是“事后拟合”。对Sora 2、可灵3.0 Omni、Seedance 2.0、Seedream这样的模型而言,原生对齐的语料直接决定生成效果的上限。
四、数据资产入表与会计意义上的“价值显性化”
2024年1月1日,财政部《企业数据资源相关会计处理暂行规定》正式施行——数据资源从“费用化的业务输入品”,变成“资本化的资产负债表科目”。这是中国数据要素市场一个很容易被技术圈忽略、但意义重大的拐点。
艺恩2025年年报中的两个会计信号,值得细读。
信号一:无形资产(数据资源)同比增长103.34%。这意味着艺恩在过去一个财年里,把持续沉淀的、符合无形资产确认条件的数据资源,按照会计准则进行了系统性确认。对一家数据公司而言,这不是简单的“账面好看”——而是把过去多年的“业务沉淀”正式转化为“资产存量”。
信号二:开发支出同比大幅增长。对应的会计处理是:当数据产品尚处于研发阶段、未满足资本化条件的部分费用化;满足条件的部分计入开发支出,后续可转入无形资产。开发支出的增长,说明艺恩在数据产品的研发、结构化、标注链路上持续加码。高金智库跟踪显示,数据资源入表的企业中,约63.57%计入无形资产,35.48%计入开发支出——艺恩的两个科目双向放量,走的就是这条会计主路径。
把这两个会计动作翻译成产业语言:艺恩正将过去多年的“数据沉淀”从“业务成本”正式改写为“资产存量”。在“数据资产可登记、可入股、可抵押融资”的基础设施(2025年3月国家公共数据资源登记平台上线、2026年2月国家数据局公共数据授权运营信息披露通知)逐步完备的背景下,这个改写不是账面技巧,而是估值地图的重绘。
与此同时,2025年艺恩数据产品业务收入同比增长127.68%,数据产品业务毛利率同比上升16.83个百分点——这两个指标并列出现的含义很清晰:不是“低价走量”撑起来的翻倍,是“产品化+议价权”同时上抬。在一个被“价格战”裹挟了一年半(火山引擎、阿里云、百度智能云2024—2025连续降价)的AI产业中,毛利同步上行是一个值得注意的信号。
五、客户视角的真实采购逻辑
说到这里,有必要切到客户端。大模型客户采购外部数据的KPI是什么?
笔者询问过三家不同类型客户的采购负责人,把他们的回答合并起来,大致是三条:训练效率、幻觉率、合规性。
训练效率层面。中国大模型Token调用量在2026年2月第三周冲上5.16万亿(单周),字节豆包日均120万亿Token,跑在前面的模型厂商都意识到一件事——Benchmark提升1个百分点的边际训练成本正在变贵。“找到一份原生对齐的多模态语料,相当于给训练Run降本。”这不是情绪化判断,是算力账本。
幻觉率层面。大模型在影视综、品牌、代言、商品这类“事实密集”的长尾场景上,幻觉成本极高——一个错误的代言归因、一个失真的票房数据、一个过时的艺人标签,都会直接伤害下游商业化。艺恩这类持续维护“事实主体库”的数据公司,在降低“知识类幻觉”上具有结构性优势。
合规性层面。Anthropic的15亿美元和解金、Concord新一轮30亿美元索赔、NYT对OpenAI/Perplexity的诉讼,都在给中国大模型厂商上了一课——“用未授权数据训练”的长期成本,远高于“买授权数据”的短期支出。合规的数据通道不再是可选项,是必选项。
再看“海外客户”这一极。海外短剧2025年全球市场规模40亿美元,ReelShort与DramaBox双雄年度收入合计超过8亿美元;可灵网页端80%以上流量来自海外、2026年1月登顶韩国多个品类下载榜;中国AI应用在海外iOS的GenAI榜单持续冲高。出海红利越大,对“可合规出境、可追溯、可本地化”的数据通道越依赖。艺恩2025年海外业务触及千万级订单突破——这个数字看似不大,但放在一家新三板基础层公司的财报里,它的意义是“中国AI数据的合规出海通道”在实际运行中被海外客户付费验证过了。
六、结语:上限不在参数里,在数据里
财报往往最诚实。
艺恩数据2025年营业收入37,355,395.51元,同比增长49.86%;毛利率48.79%;净利润3,635,478.71元——单看数字,对一家营收体量仅3000多万元的新三板公司而言并不惊艳;但当把这组数字放回2026年的多模态军备竞赛里,它讲出的故事截然不同:
数据产品业务增加127.68%、数据产品毛利率提升16.83pp、无形资产增加103.34%、开发支出同比大幅增长、海外业务千万级订单突破、数据集业务被明确为前瞻性核心增长方向。
这六条并列,构成一个清晰的产业叙事——当“公开爬取的数据”在见底、“合成数据”被证伪为主粮、“结构化垂类数据资产”成为大模型的真正稀缺资源,艺恩手里的enbase数据智库和艺恩营销智库,正在承接来自大模型厂商、互联网巨头、海外客户的三路需求。
回到开篇——那个凌晨两点的训练Run,那位技术负责人说“我们缺的不是卡,是干净、对齐、能被复用的多模态语料”。
大模型的上限,不写在参数里,写在数据里。
在中国AI产业下一个五年的故事里,会有很多名字被记住——有的是千亿港元市值的明星,有的是百万机卡的基建巨头,也有的像871430这样——在影视综、社媒、电商、版权数据的田里埋头深耕的“弹药供应商”。


















