原文标题: Predictive Data Stories: Characterizing a Nascent Data-Journalistic Genre
一、研究对象与核心研究问题
本文的研究对象是“预测性数据故事”(Predictive Data Stories),这是一种新兴的数据新闻体裁,其核心特征是利用数据分析和计算模型,对未来事件或趋势进行预测,并以新闻故事的形式呈现。论文旨在深入探究这种新闻体裁的构成方式。
研究的核心研究问题有三个:
- 如何对预测性数据故事进行有效的特征归纳和分类,以识别这一新兴数据新闻体裁的形态? 具体来说,即预测性数据故事是通过哪些图表模式来传达未来展望并使其具有意义的。
- 预测性数据故事运用何种手段来寻求真实性? 换言之,这些故事如何反映并公开透明地处理展望中的不确定性。
- 预测性数据故事如何在作者对故事的控制与读者的自由度之间取得平衡? 也就是它们遵循的是作者驱动、读者驱动,还是某种介于两者之间的互动模式。
二、研究背景
该研究植根于新闻业在数字化和数据化背景下的深刻变革。预测性数据新闻的产生,一方面源于新闻媒体对未来的预判能力(即预测即将发生的事件并设置公共议程),另一方面得益于预测性数据分析技术的发展,这种技术能够利用海量数字信息生成预测、现测和后测等预估信息。这二者的结合催生了预测性数据新闻,它致力于提供比传统预测方法(如专家意见、过往经验)更可靠的前景展望,被认为有潜力预测复杂进程、激发反事实思维和预见未来趋势,例如在新冠疫情期间为解释防疫措施的必要性做出了贡献。
然而,该研究的现实意义在于揭示了一个核心悖论:预测性数据新闻回应了人们减少不确定性的迫切需求,但其本质——基于过去数据外推的未来概率计算——却与新闻业追求准确性、可核实性和透明度的传统规范相悖。预测的天然不确定性使其成为一个有问题的新闻实践领域,因为其结论无法被证实。尽管如此,此类新闻(如选举动态图、体育表现预测、飓风预报)确实存在。因此,理解这种新闻如何传播其未来预测,并使其变得可知,就显得尤为重要,而学界对此了解甚少。
三、理论背景
论文的理论框架建立在多个文献传统的交叉点上:
数据新闻与数据故事:论文将数据新闻定义为一种基于数据集分析的叙事形式。核心概念是“数据故事”,即“通过组合数字、文字、图像和设计而成的多模态混合制品”。研究回顾了数据故事的分类方式,如根据叙事风格、互动性、目的、表现形式等进行划分,并特别关注了其根本性的时间导向——既可回顾过去,也可展望未来。
叙事与数据可视化:理论探讨了“叙事”的本质,援引了Genette和Bell的定义,强调故事是“时间上结构化且连贯相关的一系列事件”。论文指出,数据可视化已成为数据新闻的决定性元素,并不仅具有美学功能,更是一种认识论工具,具有“图表性”(diagrammatic)特征,即通过图文等元素的空间化组织来生产意义。研究关注了叙事可视化在增强用户参与度和理解力方面的作用,尤其是在传达概率性预测和不确定性方面的潜力。
叙事结构与读者互动:论文引用了Segel和Heer关于作者驱动(解释型、线性)和读者驱动(探索型、非线性)两种核心数据故事策略的经典划分,并介绍了马提尼杯结构、交互式幻灯片、下钻探索等混合模式。这些理论为分析预测性数据故事如何通过叙事结构来控制和引导读者提供了分析工具。
真实性与元故事:面对未来预测的不可验证性,理论框架强调了“元故事”的概念,即在故事中包含关于数据来源、方法论、分析决策及其对预测结果影响的说明,以此作为提升透明度、建立可信度和传达不确定性的重要手段。
四、研究设计
本研究采用了一种深入的质性分析方法,旨在超越只关注获奖项目的局限,描绘更普遍的预测性数据新闻图景。
- 样本与数据来源:研究构建了一个综合性样本库,涵盖了来自70个不同来源的150个新闻案例。这些来源包括美国、英国和德国的数据新闻奖项入围名单、知名数据新闻网站(如The Pudding、FiveThirtyEight)、数据新闻博客以及主流在线日报的数据新闻板块(如《纽约时报》的The Upshot)。选择这三个国家是由于语言和文化可及性,而非进行国别比较。
- 筛选标准:文章筛选标准严格,仅选取在标题、副标题或首段中明确涉及未来的新闻作品,并结合未来时态的语法标记(如“will”、“is going to”)和未来时间副词进行判断。研究指出,在同时期的2644个数据新闻中,仅有5.6%(即150个)是未来导向的,显示其仍属小众实践。
- 分析方法:研究采用基于扎根理论的归纳式编码方法,分两阶段进行。第一阶段,两位作者根据既有文献设定的启发式编码表(涵盖数据集来源、图文关系、可视化类型、故事类型、互动性、未来情景、元故事等维度)进行独立编码,并通过定期会议讨论和修改代码,直至达成一致。第二阶段,研究者寻找编码在故事中的特征性组合,通过持续比较和概念化,归纳出预测性数据故事的不同形态。整个分析将新闻作品视为一个整体,考察其文本、视觉元素与叙事、时间维度的组合方式。
五、主要发现
通过对样本的归纳分析,研究针对三个核心问题得出以下主要发现:
预测性数据故事的三种图表叙事模式(RQ1):
- 集中式:聚焦于一个单一的未来情景或预测。叙事围绕这一主线展开,忽略其他可能的轨迹,主要通过线性叙事结构进行强导向性的解释。
- 对比式:呈现两个相互对立或差异显著的未来情景。这种形式常用于解释导致不同结果的关键因素和因果关系,通过对比来阐明预测中的不确定性。
- 结合式:展示多个未来情景,但这些情景共同指向一个总体趋势。尽管呈现了多种预测,但其目的并非发散,而是通过多个略有差异的预测的交汇,来加强某个主要结论的稳健性和确定性。 研究发现,这三种模式均通过选择性地运用人物、场景、关系等叙事元素,将复杂、非线性的概率模型“捋顺”为一个有因果逻辑、时间上连续的叙事序列。
寻求真实性的手段:元故事(RQ2): 所有形式的预测性数据故事都运用了“元故事”作为自我反思和寻求真实性的工具。其具体形式因故事类型而异:集中式故事中,元故事通常以文本形式出现在结尾,提供补充信息;对比式故事中,元故事作为解释因果联系和模型决策的强制记录,被无缝嵌入主体叙事;结合式故事则包含详尽的元故事,为读者理解多种预测的背景、模型差异和分析决策提供详细说明。这表明真实性主要通过透明地展示“幕后”过程来实现,而非通过统计意义的准确性。
叙事控制与读者自由度的平衡(RQ3): 研究发现,预测性数据故事压倒性地倾向于作者驱动的方法。与假设中“不确定性会导向更多读者探索”的设想相反,为了将概率性的未来构建成一个清晰、连贯且有意义的故事,记者们强化了对叙事的控制。互动性普遍较低,即便采用“滚动叙事”等交互技术,也主要是为了增强可视化和阅读引导,而非允许读者自由探索数据或改变预测模型。这意味着,无论哪种形式,故事都是高度解释性的,旨在“讲述”一个数据驱动的预测,而非让读者自己去“发现”。
六、研究结论与讨论
本文的核心结论是,预测性数据故事是一种正在固化的新兴数据新闻体裁。它通过“集中”、“对比”、“结合”这三种有限的故事形式,将来自预测模型的概率性、多未来信息,转化为由记者主导的、线性的、具有因果逻辑的叙事。在这个“驯化”未来不确定性的过程中,记者将各种信息编排成一个连贯的事件序列,并以“元故事”的形式来增强可信度,而不是通过开放式探索让读者自行判断。
研究的学术贡献在于:
- 开辟了新领域:首次系统性地对新兴的“预测性数据故事”这一体裁进行了经验性的特征归纳和形态学分类,填补了数据新闻研究中关于未来导向报道的理论空白。
- 修正了既有认知:实证结果挑战了“数据新闻天然具有高度互动性和探索性”的常见假设,发现即便在处理高度不确定的未来议题时,新闻叙事也呈现出强烈的作者控制和线性化特征。这表明,将不确定的预测转化为有意义的公共叙事,需要以牺牲部分探索自由为代价。
- 深化了理论理解:揭示了“数据故事”这一概念在时间维度上的特殊表现——未来导向叙事如何通过“元故事”来弥补其无法被验证的根本性缺陷,从而构建一种基于过程透明而非结果准确性的“真实性”。
最后,论文讨论了该研究的局限性并展望了未来方向,包括进行跨国别比较研究、考察受众如何理解和评估这类故事,并指出尽管当前预测性数据故事占比很小,但它代表了新闻业一种关键的未来导向思维,对于引导公众关注当下需要采取行动的远期议题至关重要。