一、研究对象与核心研究问题

本文聚焦于社交媒体数据获取方式对选举研究的深刻影响,核心研究问题是:不同的数据收集方法如何促进或限制各类社交媒体选举研究的开展?

在社交媒体已成为民主选举和媒体周期不可分割组成部分的今天,研究者对平台如何影响选举诚信、民主韧性和政治参与的理解却在弱化。这不是因为研究意愿下降,而是因为数据获取渠道在过去十年中被急剧改变甚至关闭。本研究通过系统梳理和分类现有数据获取工具,提出一个包含两个维度(独立采集至平台授权、内容消费至内容生产)和一个核心论点的分析框架:当前数据获取途径的分化归结为三个关键因素——价格(财力)、技术(编程能力)和权限(地理或其他特权)。

二、研究背景

社交媒体在选举中的作用经历了早期的乐观期望(促进协商民主)、中期的安全担忧(加剧党派对立、回音室效应、恶意行为者利用)到现在较为平衡的认识——社交媒体技术本身既不善也不恶,而政治行动者同时将其用于有益和有害的目的。然而,算法推荐和内容审核政策在其中扮演着重要角色,平台往往倾向于优化用户参与度,即使这意味着虚假或有害内容的扩散。

与此同时,数据获取的生态发生了根本性变化。过去十年间,主要社交媒体平台大幅削减或重新配置了其数据提供方案。一个关键转折点在于,平台将数据用于构建自有的生成式 AI 工具后,外部共享的激励急剧降低——当数据可以出售或用于自有 AI 训练时,免费或低成本提供研究者变得不合逻辑。这种变化对选举研究的打击尤为严重,因为选举周期具有不可重复的时间敏感性。

三、理论背景

本文的理论基础建立在数字民主和信息社会研究的交叉领域。一方面,它继承了关于数据在民主治理中核心地位的讨论——社交媒体研究之所以至关重要,正是因为大规模平台在多地同时运行,需要广泛的研究者数据获取来理解和支撑数字民主。另一方面,研究触及了一个认识论问题:数据收集程序如何在实质上塑造了我们能提出和能回答的研究问题?

研究中提出的二维分析框架(独立至授权、消费至生产)构成了理解数据获取生态的核心工具。这一框架超越了此前的用户中心与平台中心二分法,更精细地揭示了不同获取路径的方法论特征和局限性。此外,研究还引入了非西方中心视角的关切:当前选举研究集中于 WEIRD 国家,但非 WEIRD 背景下的研究者更需要数据获取来理解本国的社交媒体选举动态。

四、研究设计

本研究采用系统性审查和分类学的方法设计。研究团队综合三个数据源:IDDP(数据、民主与政治研究所)的透明度追踪工具、Crowdtangle 创始人 Brandon Silverman 的研究工具清单,以及在 SCOPUS 和 Google Scholar 上使用"选举"和"社交媒体"为关键词检索的 2019-2024 年学术论文。初始检索获得 3,218 篇论文,经人工筛选后保留了 738 篇涉及平台数据收集的选举研究。

对每项数据获取工具,研究者进行了多维度的手工编码,包括:获取方式(平台授权至独立采集)、数据类型(生产至消费)、技术门槛、费用、地理限制、可用状态等。编码采取人工验证方式,对无法在搜索引擎前三页找到的信息进行标注。这种设计既保证了分类的系统性,又通过多重数据源和人工验证确保了准确性。

五、主要发现

  • 数据获取渠道在数量和形态上呈现高度碎片化。在 738 项选举研究中识别出了多种不同的数据获取方式,涵盖 API、爬虫、用户授权采集、平台合作项目等多种类型。
  • 数据获取的可行性核心取决于三个因素:价格(是否有足够财力购买付费数据服务或 API 额度)、技术(是否具备编程技能使用技术方案)和权限(是否处于平台开放合作的地区或是否拥有研究合作关系)。
  • 平台授权型数据获取仍然是主流方案,但其可持续性面临威胁。平台在 API 政策上的反复变化使研究者在选举期间的数据收集面临中断风险,选举研究的时间敏感性使这一问题尤为严重。
  • 自主采集方案(如数据抓取)虽然规避了平台门槛,但面临法律和伦理的灰色地带,且对技术能力要求更高。
  • 非西方研究者面临更严重的数据获取障碍。大部分数据获取方案覆盖的地理范围有限,导致全球南方选举的动态在学术研究中系统性缺位。
  • 平台数据获取的收缩直接导致研究问题的窄化。当可获取数据限定于特定平台或特定类型时,研究者只能选择可操作的问题而非最重要的问题。

六、研究结论与讨论

本研究的核心贡献在于将数据获取问题提升为认识论议题,而不仅仅是方法论技术问题。当数据获取取决于价格、技术和权限这三个因素时,学术研究实际上被一种结构性筛选机制所塑造——财力雄厚的机构、技术能力强的团队、与平台有合作关系的学者获得了优先的"知识生产权"。

研究提出了明确的政策建议:平台应将选举期间的数据获取视为一种准公共责任,而非纯粹的商业资产。具体措施包括在选举前后放宽 API 配额限制、为非西方研究者提供无障碍访问通道、以及建立独立于商业决策的研究数据基础设施。在更广泛的意义上,本文呼吁学科共同体意识到当前数据获取格局对选举研究知识版图的深层塑造效应,并在研究评估中正视数据获取障碍带来的系统性知识缺失。这些讨论在大语言模型公司进一步收紧数据开放的当下,具有越来越迫切的现实意义。