在工作执行点建立结构化数据的必要性
大多数生命科学领域的 AI 项目都有一个可识别的轨迹。通常是这样的:先有一个引人注目的演示,领导层感到兴奋,预算获得批准,团队组建完成。然而六个月后,这项计划往往被悄悄地降级——不是被取消,而是不再像最初那样被优先考虑。
当你去追问原因时,答案很少与模型本身有关。演示中的模型运行良好,问题出现在 AI 面对真实数据、回答真实问题的时候。输出结果虽然看起来合理,但没人能验证它。原本应该使用它的科学家不信任它。治理审查停滞,因为输出无法追溯。项目撞上了真实的数据环境——碎片化、不一致,从未为 AI 考虑而构建——最终无法生存。
这种模式不是偶然,而是当前生命科学领域 AI 采用的主流经验。它反复发生的原因不是模型能力不足,而是底层数据尚未准备好,而且大多数组织发现这个问题的时间都晚了。
生命科学中的数据问题并不神秘,大多数研究人员对此都非常熟悉。表现为:
- 实验记录通常以自由文本形式记入实验笔记,每个参与项目的科学家书写方式各不相同。
- 结果散落在 PDF、临时生成的电子表格以及从未设计为互通的仪器专有数据中。
- 上下文信息——实验目的、假设、决策依据——可能存在于记忆中,或是 Slack 对话,甚至是未归档的演示文稿里。
数据从技术上是可访问的,甚至很多情况下投入了大量努力去收集,但对 AI 来说,它在语义上是不可理解的。它是无关联的数值集合,是没有来源的记录,是缺乏意义的数据。
AI 在这样的基础上可以生成输出:可以总结,可以发现模式,可以回答问题,但无法给出可验证、可追踪、可信赖的答案。因为数据本身也不具备这些特性。当科学家问 “我是否在正确方向上前进?” 这样真正重要的问题时,AI 只能提供一个自信的猜测,这远不是有用的答案。
本能的反应通常是去增加数据连接。如果我们能够接入更多数据源,整合更多系统,为平台建立更多数据通路,AI 的答案或许会改善。这种思路可以理解,但它是错误的。连接器只会移动数据,而不会赋予数据意义。增加更多管道并不能改变 AI 操作的数据本质,只是让碎片化移动得更快。
什么才是真正的结构化数据
“结构化数据”这个词已经被广泛使用,以至于其精确含义容易被模糊。在实验室环境中,我们需要明确它真正的意义以及它能带来的可能性。
结构化数据的最基本定义是:按照既定的模式组织,具有一致的格式、标签和关系。一个结果有明确的类型;一个化合物与其测试的实验相关联;一个实验与执行的方案及其决策目标有明确联系。这不需要复杂的技术,而是要求在数据生成的当下就正确记录,而不是事后再去整理。
“在生成点结构化”的概念比看起来更重要。事后结构化的数据总是部分重建。上下文已经丢失,歧义由清理者而非实验科学家决定,关系只是近似。AI 在这样的数据上运行,也只能得到近似答案。
在工作执行点结构化的数据则不同。它随数据一起携带上下文。科学家在记录结果的同时,因工作流程的安排,自然地记录了结果背后的关系。无需额外工作,结构是正常操作的自然结果,而不是额外负担。
进一步的提升是本体驱动的数据(ontology-backed data),这是真正提升 AI 性能的关键。
本体是一种正式的概念关系图。在生命科学中,它不仅定义数据是什么(化合物、实验结果、材料状态、方案步骤),还定义这些概念在系统中如何互相关联。一种化合物不仅仅是表格中的一行,它有结构;该结构用于实验,实验产生结果,结果关联到决策,决策影响后续实验。数据背后的语义丰富性随信息一起流动,这使 AI 能够回答“方向性”问题,而不仅仅是事实检索问题。
为什么事后补救如此困难
那么,为什么不清理现有数据呢?如果问题是历史数据缺乏结构化,数据清理项目难道不能解决吗?
答案是:可以部分解决,但障碍非常大:
- 不可逆性:从未在生成点结构化的数据通常具有无法事后消解的歧义。上下文丢失了,实验意图未被记录,相关科学家可能已经离职。清理可以强行施加结构,但无法恢复从未捕获的意义。
- 规模庞大:对多年科学数据进行结构化改造是巨大的工程,且通常与正在进行的研究争夺资源。这样的项目往往半途而废,看似解决了问题,实则并未彻底。
- 工作流仍在运作:即便清理成功,新数据仍然按照旧流程生成。清理后的数据很快过时,问题会再次出现。
这意味着,数据基础并非一次性项目,而是一种架构决策:决定科学工作在最初如何被记录。真正能为 AI 打下基础的组织,不是清理已有数据,而是改变新数据的生成方式,让 AI 可用的数据成为日常科学工作的副产品,而不是额外任务。
AI 可用数据的特征
实际可观测的特征如下:
- 在生成点结构化:科学家无需额外操作,数据自然 AI 可用。
- 关系被保留:化合物到实验、实验到结果、结果到决策、决策到后续实验的关系明确存储,AI 查询时无需猜测。
- 实验上下文随数据流动:实验意图、材料来源、决策理由与结果同存,AI 可以解释实验目的。
- 答案可验证:AI 输出的查询可独立重复和检查,透明可追溯。
- 平台开放:外部工具可以接入结构化数据,数据科学家可以使用自己的模型和分析工具而无需重建数据桥。
这些都不需要复杂技术,只需要以结构化科学工作为中心的平台设计,以及认识到 AI 投资与数据投资本质上是同一件事。
治理维度
在受监管的环境中(如大多数生命科学领域),AI 输出必须可审计。这不是额外的官僚要求,而是实际需要。无法验证的 AI 摘要无法通过治理审查。合规团队或监管者关心的不是“模型有多好”,而是“能否显示这个答案是如何生成的,并可复现?”
Gartner 指出,2026 年医疗健康和生命科学领域大多数自主型 AI 项目预计停滞的主要原因不是模型能力,而是无法展示可追溯性和控制能力。预计 80% 的自主型 AI 项目无法通过初步治理检查。
治理问题并非独立于数据质量,它是数据质量的延伸。结构化、本体化数据使 AI 输出天然可审计,因为查询可重现、可检查、可验证。正确的数据基础同时解决了治理问题。
核心问题
在启动下一个 AI 项目之前,在评估供应商、选择模型、做架构决策之前,有一个问题应该优先提出:
AI 将操作的数据是什么?
如果答案涉及大量数据清理、依赖连接器弥补碎片化,或寄希望于模型绕过底层数据的不足,那么项目从一开始就错位。清理工作比预期耗时,连接器移动的是无意义的数据,模型输出无法验证,项目注定会在演示与实际使用之间搁浅。
那些在生命科学中真正获得持续 AI 回报的组织,并不一定拥有最复杂的模型或最激进的 AI 路线,而是拥有在工作点就已结构化、贯穿研究周期、语义丰富的数据,使 AI 输出有意义而非仅仅快速。
模型只是最后一公里,数据才是路。 从一开始就把路建好,并不是 AI 的前提,而是让 AI 投资值得投入的根本条件。