摘要
社会治理现代化是国家治理体系和治理能力现代化的重要内容。随着移动通信、卫星定位等多种位置感知技术融合发展,海量具有时空标识的移动大数据为实现高精度、实时化与科学化社会治理提供了重要契机。本文归纳了移动大数据的5V+5C特征与主要来源,梳理了移动大数据驱动的移动行为规律挖掘与移动网络模型构建研究进展,探讨其在贫困识别、经济评估、疫情防控、应急响应等关键社会治理场景中的典型应用。在此基础上,进一步分析了移动大数据在可代表性与数据偏差、隐私保护与使用合规性问题方面的局限,也对其未来在多源数据融合与时空语义对齐、隐私保护计算与灾害场景实时响应、人工社会生成与大模型驱动的数字推演等方向的研究前景进行了展望。
Abstract
Modernization of social governance is an important component of modernizing the national governance system and governance capacity. With the integration and development of location-aware technologies such as mobile communications and satellite positioning have generated massive mobile big data with spatiotemporal identifiers, providing an important opportunity for high-precision, real-time, and scientific transformation of social governance. This paper summarized the 5V+5C characteristics and main sources of mobile big data, reviewed research progress in mobile big data-driven human mobility pattern mining and mobile network model construction, and systematically examined its typical applications and frontier advances in key social governance scenarios, including poverty identification, economic assessment, epidemic prevention and control, and emergency response. On this basis, this paper further analyzed the limitations of mobile big data in terms of representativeness, data bias, privacy protection, and usage compliance, and also discussed future research prospects in multi-source data fusion and spatiotemporal semantic alignment, privacy-preserving computation and real-time response in disaster scenarios, artificial society generation, and large model-driven digital simulation.
社会治理是对社会公共事务的管理和调控,旨在解决社会矛盾、维护公共秩序、促进公平正义[1]。然而,当前全球仍面临诸多严峻挑战:贫困、疫情与自然灾害等极端事件的交织,构成了复杂而紧迫的社会治理难题。尽管国际社会在减贫方面持续努力,但受发展差异、经济结构及人力资源等多重因素制约,至今仍有超过7亿人口处于贫困线以下[2]。2020年以来,新型冠状病毒疫情在全球蔓延,对公众健康与社会经济造成严重冲击[3]。同时,全球极端气候事件频发,山体滑坡、泥石流、雨雪冰冻、暴雨洪涝、台风等自然灾害导致重大人员伤亡与经济损失[4]。面对高度动态、多维联动的现实情境,现有治理实践仍较多依赖政府经验与宏观理论推演,在数据更新及时性、信息精细化程度、资源分配科学性等方面存在局限,难以实现精准、高效且可动态调适的决策支撑。
移动大数据为破解上述治理困境提供了新的路径与可能。随着移动通信网络、全球导航卫星系统(global navigation satellite system,GNSS)、互联网与物联网等移动通信与定位技术的广泛普及,海量、高粒度的时空行为数据得以持续生成,为社会治理的精准化与动态化提供了新的数据基础。相较于传统数据,移动大数据在来源、规模、粒度与成本上具有显著优势。首先,其数据产生于用户日常通信与移动行为的被动记录,避免了人为干预,真实性较高。其次,数据覆盖范围广,近乎涵盖所有移动设备使用者,有助于改善传统方法的抽样偏差。再次,数据时空精度高,定位可达米级,更新频率可达分钟级,能够满足精细化治理的需求。最后,数据采集通常依托现有通信与感知基础设施,边际成本相对较低。基于这些特点,移动大数据能够精细刻画人口流动模式与空间互动结构,揭示社会运行的动态规律,从而推动社会治理从传统的“经验驱动”向“数据驱动”转型[5],为构建响应更及时、配置更优化、评估更科学的现代治理体系提供支持。
本文旨在系统总结移动大数据在社会治理中的前沿研究与应用实践,介绍移动大数据的主要特征与类型,说明不同数据来源在覆盖范围、时空粒度和潜在偏差方面的差异,为后文讨论提供基础;然后围绕个体与群体两个层面,分别总结移动行为规律挖掘和移动网络模型构建的相关研究,以呈现从行为特征识别到关系结构刻画的研究脉络;在此基础上,结合贫困识别、经济评估、疫情防控和应急响应等典型场景,梳理移动大数据在社会治理中的主要应用及其作用方式;最后,讨论当前研究在数据偏差、隐私保护和多源融合等方面面临的问题,并对未来发展方向进行展望。
1 移动大数据的概念、特征与类型
移动大数据来源广泛、类型多样,并在社会治理中形成了从数据获取、行为规律挖掘到网络建模与治理决策支持的完整研究链条。为更清晰地展示移动大数据在社会治理中的整体研究脉络与应用逻辑,图1给出了移动大数据驱动社会治理研究的总体框架。
从数据来源与技术实现角度来看,移动大数据主要指基于移动通信技术、卫星导航技术、Wi-Fi技术、蓝牙技术、射频识别(radio frequency identification,RFID)与网际互联协议(Internet protocol,IP)地址查询等多种技术手段获取的、具有时空标识的信息集合。移动大数据具备典型的“5V”特征,即数据体量巨大(volume)、更新速度快(velocity)、类型多样(variety)、价值密度低但整体价值高(value),以及数据来源真实可靠(veracity)[9]。然而,“5V”是面向通用大数据形态提出的本体特征,对移动大数据由人类移动行为被动触发、深度耦合时空与社会属性的特殊性刻画不足。围绕这一特殊性,已有文献分别从不同侧面进行了讨论:Blondel等[10]在对手机数据15年研究进展的综述中,系统梳理了大规模匿名通话记录在覆盖广度、社交结构与个体移动方面的独特价值;De Montjoye等[11]从隐私角度证明了细粒度轨迹具有近乎唯一的身份识别风险;Barbosa等[12]在人类移动建模综述中则强调了移动大数据的时空粒度及其在个体到群体跨尺度分析中的作用。本文从社会治理应用的需要出发,结合现有移动感知与定位技术体系,对这些分散讨论加以整合,归纳为以下五项相互关联的属性,简称“5C”。
1)广覆盖性(comprehensive):移动终端已成为社会基础设施,覆盖人群与区域极广,这是其在贫困识别(第4.1节)、应急响应(第4.4节)等普查类场景中具备替代价值的前提。
2)持续性(continuous):数据随用户移动行为持续产生,可对移动目标进行准连续、全天候的记录,满足行为规律挖掘(第2节)与疫情动态追踪(第4.3节)所依赖的时间稠密条件。
3)时空性(chrono-spatial):每条记录均携带时间戳与空间坐标,天然适合时空分析,是出行网络与接触网络等结构建模(第3节)的数据前提。
4)隐私敏感性(confidentiality-sensitive):轨迹数据可揭示个体职住地点、社交关系与生活模式,仅靠少数时空点即可实现高比例的个体唯一识别[11],这一属性是第5节合规治理讨论的实证基础。
5)人本属性(citizen-centric):数据记录人类个体的移动与交互行为,而非物理环境或设备状态,使其成为经济评估(第4.2节)等以人为中心的治理任务的天然载体。
随着定位精度不断提高、通信技术持续演进以及多源传感融合的深入,移动大数据的来源日益多元,粒度日趋细化。本文综合考虑数据的采集主体与管理归属、核心定位技术以及典型应用场景三个维度,将移动大数据划分为以下四类(见表1)。需要指出的是,不同类别在实际应用中并非完全互斥。例如,互联网平台的定位服务底层往往融合了卫星定位与基站信号,但其在数据权属、采样机制、可获得性及偏差结构等方面与运营商信令数据存在显著差异,因此仍有必要作为独立类别加以讨论。
表1四类移动大数据的核心特征对比
Tab.1Core characteristics comparison of four types of mobile big data
1.1 手机定位数据
来源于个人移动终端的定位数据可统称为手机定位数据。其核心定位技术包括两类:一是基于蜂窝网络的信令定位,二是基于终端内置GNSS芯片的卫星定位。前者主要包括用户在呼叫、切换基站时产生的包含时间戳和基站位置的呼叫详细记录[13](call detail records,CDR),其空间分辨率取决于基站密度,城区通常为百米级,郊区可达千米级;后者通过卫星信号解算定位坐标,精度通常优于10 m,但在室内或城市峡谷中信号衰减明显。运营商提供的匿名化信令数据覆盖广、连续性强,适于分析宏观人群流动趋势[14-15];而高精度的卫星定位数据则是刻画个体精细轨迹的基础。
1.2 公共交通数据
此类移动大数据主要来源于公共交通系统运营与感知设备。其定位依托交通系统自身的感知基础设施(如闸机、车载终端),定位精度受限于站点或路网拓扑,属于离散的锚点式定位。核心特点是记录了明确交通模态下的移动行为,例如公交地铁的刷卡记录[16]、出租车的全球定位系统(global positioning system,GPS)轨迹[17]、共享单车的借还记录[18-19],以及航空[20-22]、高铁[7,23]、船舶[24]的班次与航迹信息。这类数据长期被用于分析居民通勤、出行特征及城际联系[2-3],具有覆盖地理范围广、时间序列完整的特点,适用于多尺度人口流动模式的建模与分析。但此类数据仅能捕获使用公共交通的出行者,对私家车等其他出行方式存在系统性遗漏。
1.3 互联网用户授权数据
互联网用户授权数据主要来源于用户与平台服务的交互。其核心是用户为获取服务而授权共享的时空信息,主要包括两类:一是主动签到与位置分享,如社交媒体的地点打卡、带地理标签的推文;二是伴随服务请求产生的被动定位,例如,使用地图导航、社交签到或生活推荐应用时,其位置请求(通常融合了卫星、基站、Wi-Fi等多源信号)构成了高价值的连续轨迹数据集[25-27]。此外,平台也可通过IP地址进行群体层面的网络定位,但其精度通常仅为城市级别。这类数据可以反映个体间社交关系与社会经济活动模式,但其覆盖范围、精度与完整性高度依赖于用户授权状态、应用生态与网络环境。互联网位置数据经匿名化、聚合化处理,可形成重要的公开数据产品。典型代表如百度迁徙数据与谷歌社区移动报告,它们本质是互联网服务生态的衍生品,与运营商原始信令数据在权属和应用逻辑上存在显著区别。
1.4 物联网泛在感知数据
物联网泛在感知数据来源于为特定感知目的而部署的物联网及城市泛在传感设备,是主动采集的场景化状态数据。其定位技术以近场感知为主,包括RFID传感器[28]、蓝牙信标[29]、Wi-Fi探针及视觉分析等,定位精度高(米级至亚米级),但覆盖空间受限于设备部署范围。典型应用场景如在商场、路口、园区等明确物理范围内,通过上述专用设备持续监测“人、车、物”的存在、身份与移动状态。例如,安防摄像头可以通过视觉分析提取行人轨迹;部署的Wi-Fi探针能够通过被动嗅探周围智能手机等设备发出的Wi-Fi信号来识别客流。这类数据以极高的时空粒度,服务于精细化、场景化的社会管理需求。与前三类数据相比,物联网泛在感知数据的优势在于空间粒度极细,局限在于难以支撑跨区域、大尺度的人口流动分析。
从前述“5C”属性的视角看,四类数据都体现了时空性与人本属性,但在广覆盖性、持续性与隐私敏感性上各有侧重。手机定位数据在覆盖人群与时间连续性上最具优势,但细粒度轨迹也带来最高的隐私风险;公共交通数据时间序列完整,但覆盖人群受限于交通模态,对私家车等出行方式存在系统性遗漏;互联网用户授权数据的时空粒度依应用而异,覆盖范围与完整性高度依赖于用户的授权状态与活跃度;物联网泛在感知数据空间粒度最细,但空间覆盖最窄,难以支撑跨区域分析。
2 移动行为规律
在明确移动大数据的主要类型及其特点之后,需要进一步讨论这类数据能够揭示哪些稳定的人类移动行为规律。该研究领域主要关注个体与群体在时间和空间上的活动规律,既包括对出行距离、返回行为、周期性和可预测性等现象的归纳,也包括对这些现象形成原因的解释。基于此,本节分别从移动行为规律挖掘和移动行为机制建模两个方面梳理相关研究。
2.1 移动行为规律挖掘
人类移动行为规律挖掘侧重于解析人类轨迹时空特征,探究人们如何分配时间、选择地点以及规划路线。在早期研究中,González等[30]通过分析10万名匿名手机用户的动态轨迹,发现个体位移距离Δr的概率分布P(Δr)表现出截断幂律特征:
(1)
式中,β为幂律指数,κ为截断参数。同时,表征个体活动范围的回转半径rg的概率分布P(rg)也服从截断幂律形式:
(2)
式中,βr为对应的幂律指数,r0g为尺度参数。该研究同时通过分析返回时间概率分布中出现的24 h、48 h、72 h峰值,揭示人类移动行为存在显著返回已访问地点的趋势,从而系统性地刻画了人类移动行为中内在的重复性与时间周期性[31]。Song等[32]基于大规模手机信令数据进一步指出,传统随机游走模型(如列维飞行[33]或连续时间随机游走[34])的理论预测与实证结果在多个关键标度律上存在系统性冲突:模型预测新访问地点数按S(t)~tβ增长,但实证显示为更慢的S(t)~tμ(μ<β);模型假设地点访问频率均匀分布,但实证显示其服从Zipf定律fk~k-ζ;模型预测均方位移呈正常扩散,而实证则观察到超慢扩散,增长远低于幂律预期。为此他们提出了探索与偏好返回(EPR)模型,该模型通过引入探索概率Pnew∝S-γ与返回概率Πi=fi两项核心机制,自洽地推导并预测了上述经验标度律,为人类移动行为建立了统计一致的微观模型基础。此外,昼夜节律[35-37]、记忆机制[38]、近因效应[39]等一系列人类移动行为规律相继被发现。
随着研究深入,学者们进一步从空间尺度的视角审视这些规律。研究进一步转向对空间尺度的研究。Alessandretti等[40]通过分析全球超过70万个体的轨迹发现,尽管个体位移在宏观统计上呈现幂律特征,但其背后存在明确的地理层级结构,Alessandretti等据此提出“容器模型”。研究指出,人类的日常移动实际上被约束在街区、城市、国家等多个具有典型尺度的空间“容器”内,每个容器内的位移分布服从有尺度的对数正态分布,而宏观上观测到的在双对数坐标中呈直线的幂律特征,正是多个不同尺度的对数正态分布混合叠加后所涌现出的统计结果。这一发现在数据层面统一了统计物理中无标度规律与地理学中层级化空间认知的矛盾[41]。Kraemer等[42]则汇总了全球超过3亿名智能手机用户的谷歌位置历史数据,在全球尺度上验证了人类出行步长服从截断幂律分布(式(1)),并进一步揭示了该规律中的关键参数随社会经济水平的呈现差异:低收入国家幂律指数比高收入国家高约40%,说明其出行概率随出行距离增大而衰减得更快;此外,该分布仅在超过某一最小阈值xmin后才成立,而低收入环境中的xmin值仅为高收入环境中的约十分之一,反映出无标度规律起效的空间尺度在不同社会经济因素下存在显著差异。
除空间尺度的影响外,学者亦从社交网络角度探究人类移动的规律。Eagle等[43]证明,仅凭手机观察数据,即可准确推断95%的友谊关系。Cho等[44]则进一步验证了社交关系对个体移动行为的影响。该工作结合位置社交网络签到数据与手机定位数据验证:个体短距离移动呈现明显的时空周期性,且基本不受社交网络结构影响;长距离移动则更多由社交关系驱动。结果表明,社交关系约可解释10%~30%的人类移动,周期性行为约可解释50%~70%的人类移动。根据这些规律提出的模型将下一位置移动预测性能提升了一倍。
近年来,细粒度移动轨迹本身的高可预测性、唯一性与重复性也引发了隐私担忧。Song等[45]基于5万名手机用户的轨迹数据,通过计算个体轨迹熵Si,结合Fano不等式揭示人类移动的潜在可预测性上限为Πmax≈93%。该高值根植于人类行为内在规律性,尽管群体出行模式存在差异,但人类移动行为的可预测性变化很小。De Montjoye等[11]进一步对15个月内150万个体移动数据的分析表明,在每小时记录位置、空间分辨率约3 km的数据集中,仅需4个时空点即可唯一识别95%的个体。该研究揭示了人类移动的唯一性ε随空间分辨率v和事件分辨率h降低呈幂律衰减:
(3)
式中:α为尺度参数,反映在最高分辨率(v=1,h=1)下的基础唯一性水平;φ为时空点数为p时的衰减指数。
(4)
因此,即便粗粒度数据也难以实现有效匿名。Schneider等[46]则基于网络理论中的模体(motif)概念,对数千个体的轨迹网络进行分析,发现日常移动模式仅由17种基本结构构成,这些结构可覆盖90%的人群,且个体对应的模体在数月内保持稳定。上述发现凸显了移动大数据在揭示行为规律的同时,亦带来显著的隐私风险,对数据安全管理提出了明确警示。
2.2 移动行为机制建模
为揭示移动行为背后的形成机制,研究者提出了多种数学模型,从早期基于经验的参数化模型(如引力模型、介入机会模型)到后期无参数的辐射模型及其扩展,逐步深化了对人类移动规律的理论解释,并进一步探索了微观个体行为与宏观群体流动之间的跨尺度关联。
早期研究主要依赖参数化的经验模型。引力模型是其中最具代表性的模型,受到牛顿万有引力定律启发,Zipf[47]在研究中强调距离对人类迁徙模式的重要性,其核心思想是流动规模与人口规模成正相关、与地理距离成负相关。两个地区i和j之间迁徙流动的个体数量Ti,j可近似为
(5)
式中,Pi和Pj代表各地人口,ri,j为i和j两地之间的距离。在后续研究中,国内生产总值(gross domestic product,GDP)等其他代表地区吸引力的变量可能会在“质量”定义中被考虑[48-49];距离则通常用幂律或指数函数形式来建模。尽管引力模型被广泛使用且历史上很受欢迎,但引力模型是对人群流动的粗略简化,在许多情况下无法捕捉实际的经验观察[50]。此外,该模型需要拟合若干自由参数,因此对数据的波动或不完整性相当敏感,一旦环境改变,参数可能失效[49,51]。重力模型中明显的一些限制可以通过单约束、双约束或无约束模型来解决,具体使用取决于可用信息的量和追求的目标。
除引力模型之外,介入机会模型也是早期空间迁移研究的重要范式。Stouffer提出的介入机会定律[52]指出,“移动给定距离的人数与该距离处的机会数量成正比,与介入机会数量成反比。”机会是旅行制定者认为可能作为其旅程终点的目的地,而介入机会是比最终目的地更接近旅行制定者但被旅行制定者拒绝的位置。介入机会模型的传统形式通常由Schneider版本的原始模型给出[53],即从起始位置i到按i的行程成本排序的第j个位置的流量Ti,j由下式给出:
(6)
式中,Oi是从i出发的行程总数,第二项表示这些行程之一在位置j结束的概率。分母是一个标准化因子,确保概率之和为1,该概率取决于从起始位置i出发的旅行成本排序到第j个位置的累积机会数Vi,j,n是所考虑区域中的位置总数。参数L的值可以被视为接受机会目的地的恒定概率,与引力模型类似,通过调整L的值可以获得尽可能接近观测数据的模拟流量。后续工作中,一些介入机会模型的变体研究基于这个概念进行了发展[54]。实际上,介入机会模型可以被视为引力模型的一种特殊变体,且二者的表现通常相当[55]。
为了克服对拟合参数的依赖,后续研究转向探索无参数的理论模型。Simini等[49]提出的辐射模型是一个里程碑,它通过引入“机会竞争”机制,实现了无须校准参数即可预测流动。该模型根据辐射和吸收过程制定,假设两地间的人口流动并非由距离直接决定,而是取决于出发地与目的地之间就业或生活机会的竞争。具体而言,模型考虑位置i和j的人口规模分别为Pi和Pj(也可用目的地总流入量近似表征机会数量[50]),两地距离为ri,j,si,j表示以i为中心、半径ri,j范围内除i和j外的总人口,Ti为从位置i出发的总流量,则由辐射模型预测的从i到j的平均人口流量Ti,j表示为
(7)
(8)
式中,Nc为总通勤人数,N为研究区域总人口。
上述原始辐射模型假设了空间离散化的定居结构,Simini等[56]在后续研究中将其改进为带有机会选择的辐射模型,基于美国和西欧通勤观测数据,考虑了辐射模型在连续情况下的有效性,并提出了“大型流动和交通网络中观察到的复杂拓扑特征可能是在非均匀景观上发生的简单随机过程的结果”的观点。但辐射模型的无参数特性也使其对空间尺度变化敏感[50]。为此,Yang等[57]进一步提出了扩展辐射模型,通过引入尺度缩放参数进行校准,考虑区域尺度的影响以及设施分布的异质性程度,以预测不同空间尺度下的通勤流,该模型效果与双约束重力模型相当。
上述模型主要聚焦于对群体流动现象的宏观描述,近期研究的前沿则致力于构建微观个体行为与宏观群体规律之间的理论桥梁。例如,Yan等[58]通过结合个体记忆效应与群体竞争机制,实现了仅基于人口分布对多尺度不同国家人类移动进行预测。Schläpfer等[59]则从时空结合角度出发,利用全球多维移动大数据揭示了“任何地点i的访客数量ρi与旅行距离r和访问频率f的平方成反比”这一跨空间尺度普适的访问规律,即
(9)
式中,缩放指数η≈2,比例常数μi反映地点的“吸引力”。该研究证明这一规律在不同地理、文化和发展层面上都很稳健,并提出偏好探索与偏好返回(PEPR)模型,在机理上证明了遵循Zipf定律的城市簇等宏观的空间聚类特征是个体周期性移动行为的涌现结果。
综合上述模型的发展脉络,可从核心假设、参数依赖、优势、典型适用场景与主要治理局限五个维度进行系统比较(见表2)。总体而言,参数化模型(引力模型、介入机会模型)形式简洁、易于实现,在数据充分且场景稳定的条件下表现良好,但对参数拟合的依赖使其在数据质量低下或场景发生结构性变化时(如重大政策干预、极端灾害事件)容易失效。辐射模型通过无参数设计克服了这一缺陷,在全国尺度通勤流预测中展现出较强的普适性,但其对空间同质性的隐含假设使其在城乡差异显著或设施分布高度不均的区域精度下滑;扩展辐射模型虽引入尺度参数加以校准,却重新带来了参数依赖的问题。PEPR模型则从个体行为机制出发,能够自洽推导宏观统计规律,但从个体轨迹预测到区域间流量的尺度跨越机制尚不成熟。然而,上述模型整体上仍更侧重于刻画较长时间窗口内的人口流动平均态势,难以捕捉极端事件冲击下流动模式的非线性突变,未来需要进一步研究以精准刻画应急救灾、疫情防控等社会治理场景中的动态过程。
表2主要移动行为机制模型对比
Tab.2Comparison of main mobile behavior mechanism models
3 移动网络模型
在识别移动行为规律的基础上,进一步将移动过程表示为节点之间的关系结构,有助于从整体上理解人口流动与社会互动。移动网络建模通常将地点、区域或个体抽象为节点,将出行、接触及其强度、方向和时间关系抽象为边,并借助复杂网络理论和图论对网络的拓扑特征及演化过程进行分析。这种表示方式能够把分散的移动记录转化为可计算的结构信息,为公共资源配置、突发事件响应和城市系统评估等社会治理问题提供重要工具[59-61]。下文将从出行网络和接触网络两个方面梳理相关研究。
3.1 出行网络
出行网络通过将基站、城市、行政区等地理空间中的离散单元抽象为节点,将节点间的移动行为映射为带权有向边,从而揭示城市与区域间要素流动的拓扑结构。典型应用包括人口移动网络、通勤网络、公共交通网络、航运网络等[12]。
出行网络具有不可忽视的空间特性。早期研究提出,在节点位于欧几里得空间中位置的网络中,空间约束可能对其连通模式等网络属性产生强烈影响,经典网络度量指标和算法可能对空间网络产生无关的结果[62-63]。针对这一问题,Expert等[64]主张应认真处理空间对网络拓扑施加的约束,通过因式分解排除空间效应,提出了适应空间网络的社区检测模块化函数,以揭示节点间更明显隐藏的结构相似性。此外,随着大规模网络研究的深入,人们观察到其度数和权重分布在多个数量级内变化,而粗粒度方法和滤波技术与这种多尺度特性发生冲突,使得提取构成网络骨干的真正相关连接变得具有挑战性。对此,Serrano等[65]提出的差异过滤器(disparity filter)成为从复杂多尺度网络中提取统计显著边的重要工具。
进一步地,从移动大数据中提取出行网络不仅能反映个体出行行为,还有助于理解城市内在结构。Louail等[66]定义了多种动力学特征指标作为提出新城市分类的基础,并提出了一种无参数方法来确定城市热点,发现城市活动中心数量与城市人口规模呈亚线性增长,且无论城市规模大小如何,热点层级在一天中高度稳定。Cabrera-Arnau等[67]则利用高时空分辨率的智能旅行卡数据构建城市公共交通出行网络,提出基于泊松混合模型的概率建模框架,仅分析出行网络即可衡量因复杂城市结构形式而产生的人类流动,且该方法论依赖于单中心假设,因此通过分析偏离单中心假设的程度即可量化评估城市结构的多中心性。在数据稀缺的场景下,已有研究考虑利用数学模型和深度学习模型来生成移动数据,例如Simini等[68]提出的深度引力模型能够从移动大数据、地理数据及社会经济数据中提取土地利用、道路网络、交通、食物、医疗设施等多种特征,并基于深度神经网络方法发现这些特征与人口流动之间的非线性关系,从而生成流动概率,该模型即使在人口稠密区域或较小区域仍有较强的预测能力和泛化能力(见图2(a))。Xu和Guan[8]提出的CrossPred框架利用个体兴趣点(point of interest,POI)历史访问数据捕获城市内部的移动出行网络,反映个体在不同城市的流动模式和偏好,通过加强城市间共享的POI特征,削弱独特的POI特征,促进跨城POI特征匹配,从而使旅客的出行偏好能够在城市间适应性转移,增强不同城市间的模型泛化迁移能力。
同时,越来越多研究将出行网络嵌入物理交通、在线社交、信息交互等多层系统中,构成多层耦合网络,以揭示层级间的非线性级联效应。Buldyrev等[69]基于渗流理论提出级联失效模型,发现相互依赖网络的脆弱性随节点分布宽度增加而加剧,为多层风险分析奠定基础。Boccaletti等[70]进一步引入超邻接矩阵、度相关性和重叠性等度量捕获层间交互,阐明多层结构可引发混合相变、级联故障、合作演化等现象,凸显其在稳健性与动态调控中的价值。De Domenico等[71]以伦敦公共交通系统为例,提出了一种利用多层网络的随机游走方法以评估多层网络在随机故障情况下的可导航性,量化证明多层网络抗故障能力优于单层结构(见图2(b))。Gallotti和Barthelemy[72]则构建了英国全国公共交通系统的加权有向时序多层网络。此外,文献[73]探讨了电动出行与电网整合的挑战,如充电设施优化与能源公平问题,体现了多层网络在可持续交通中的应用前景。
3.2 接触网络
接触网络关注人类移动过程中个体间的关联关系,通常将个体抽象为节点,将个体在同一时空下的近距离接触抽象为连边。这种建模方式可以将物理空间中的移动轨迹投射到社会空间中,通过构建个体级别的接触结构,为流行病传播、信息扩散与群体行为演化等社会课题提供了模型基础。
在接触网络的结构研究方面,早期工作如Onnela等[74]基于移动通信记录构建了大规模社会接触网络,发现接触强度通常与边周围的局部结构相关,还发现在接触网络中,移除接触强度较强的边时通常不会对网络的韧性产生重大影响,但是在移除接触强度较弱的边时却会导致类似相变的网络崩溃现象;在信息扩散中,弱边与强边产生的效果均是有限的,信息大多通过中等强度边传递到节点。为了进一步加强对所有由面对面互动驱动的现象的理解,Cattuto等[28]使用低成本RFID设备构建不同情景下的微观尺度个体社交接触网络,发现连边数量与对应接触持续时间之间的关联呈幂律分布,且个体接触模式在不同情境中、在不同空间探测尺度下均具有相似性,因此可以根据连边的数量和强度来定义“超级接触者”。后续的一些研究还指出,个体行为偏好会影响到日常生活中接触模式的时空规律,例如交通的早晚高峰,非工作时间商场、超市、餐厅拥挤程度等。Sun等[75]对这些日常接触间内含的被动社交关系进行了研究,该研究利用新加坡500万名居民的公共交通智能卡数据构建了公共交通接触网络,发现个体之间的物理接触显示出可重复的时间模式,且存在“熟悉的陌生人”现象,即部分反复接触的个体并未被归入小社群,而是随着时间推移紧密联系,形成一个庞大但难以察觉的小世界接触网络。近年来,越来越多研究开始建设公开大规模行为数据集,Sapiezynski等[29]发布了通过智能手机收集的多层高时间分辨率接触网络数据集,包括数周内700名参与者之间的物理距离网络、通话网络、短信网络以及Facebook社交关系信息,为接触网络构建提供了新的研究思路。
传统成对接触网络上的传播模型,如易感者-感染者-康复者(susceptible-infected-recovered,SIR)模型,假设感染或信息通过两两接触独立传递,难以刻画群体性互动场景下的传播效应,即个体在同时接触多个已感染邻居时,被感染的概率往往非线性增大。St-Onge等[76]基于超图的非线性传染模型揭示,高阶相互作用可引发不连续相变与双稳态。这一机制对突发舆情的早期预警与干预窗口识别具有重要启示,为治理部门制定分级响应预案提供定量依据。同时,成对网络的社区检测算法(如模块度优化)仅能识别基于两两联系的凝聚性子群,而在现实中,家庭聚会、班级课堂、办公场所等多人同时参与的互动单元才是社会组织的基本功能单元。Rosvall等[77]基于对疾病传播边际影响的观察,论证了忽略二阶马尔可夫动力学可能导致接触网络的社群检测、排序和信息传播分析出现偏差。在高阶接触网络的实证数据对比研究中发现,同类系统在高阶结构上表现一致[78]。基于单纯复形或超图的高阶社区检测方法能够识别这类“超团”结构,从而更准确地刻画社区内部的凝聚模式与跨社区的弱连接桥梁。在贫困识别与公共服务资源配置场景中,结合移动大数据构建的高阶接触网络,有助于识别真实社会支持网络中的孤立个体与脆弱群体。这类个体在成对网络中可能拥有若干弱联系,而在高阶结构下却始终处于群体互动的边缘。此外,城市基础设施系统(交通、通信、能源)与社会功能系统(医疗、应急、供应链)之间存在大量多体耦合关系,单一成对网络模型无法充分刻画这种高阶依赖结构下的级联失效风险。此外,高阶相互作用的存在会显著影响网络动力学机制[79]。Battiston等[80]指出,具有超图、单纯复形等高阶结构的接触网络能捕捉到爆炸性转变、拓扑动力学过程等新现象(见图2(c))。这意味着,当多个关键节点同时失效时,系统崩溃的速度和规模可能远超基于成对网络的预测。在应急救灾场景中,基于移动大数据构建的高阶接触网络,可用于模拟极端灾害(如地震、洪涝)冲击下城市人口流动与社会接触结构的协同崩溃路径,识别系统性脆弱节点,为城市韧性评估与应急预案优化提供更具解释力与决策参考价值的计算框架。
此外,越来越多的研究注意到许多情况下接触网络的边并非持续活跃,引入时间维度能够更准确地描述系统状态演化。Pan和Saramäki[81]通过引入基于连边时间戳严格递增顺序的时序路径定义,发现静态网络中不重要的节点可能在时序网络中成为关键传播枢纽,强调了事件序列中的相关性和异质性对网络动态过程的关键影响。Holme和Saramäki[82]指出时间聚合网络忽略了时序结构,会导致系统性地高估网络的连通效率。Sekara等[83]进一步发现额外的时间信息可以简化对动态变化的描述,以高时间分辨率观察网络;可以通过跨时间切片的简单匹配揭示具有稳定核心的动态变化社团,从而能够很大程度上简化对社会动态的描述(见图2(d)),并提出了“当人类在地理位置方面最不可预测时,在社会环境中最可预测”这一假说。
图2典型移动网络模型
Fig.2Typical mobile network models
4 移动大数据在社会治理中的前沿应用
在前文讨论数据类型、移动行为规律和移动网络模型的基础上,本节进一步梳理移动大数据在社会治理中的前沿应用。不同治理问题关注的对象和尺度并不相同,贫困识别和经济评估更侧重社会经济特征识别,而疫情防控和应急响应则更关注人口流动、接触结构及其动态变化。围绕这些场景,已有研究逐步形成了从行为特征提取到关系结构刻画,再到治理指标构建和决策支持的应用路径。接下来分别总结移动大数据在贫困识别、经济评估、疫情防控和应急响应中的主要研究进展。
4.1 贫困识别
贫困是全球不利健康结果的最重要决定因素之一,也是引发社会不稳定、造成人类潜能流失的核心诱因[84],因此,精准识别贫困人口及其区域分布是开展有效反贫困干预工作的重要前提[2,84]。传统贫困测量与定位方法高度依赖普查数据,但在多数中低收入国家,这类数据不仅获取成本高昂,更新周期也相对较长,需要寻找替代数据以弥补普查间隔期间的数据空白[85]。移动大数据为此提供了一种低成本、细粒度且高时效的替代数据源,相关研究先后围绕单一数据源的特征提取、多源数据融合以及跨区域泛化能力检验三个方向持续推进。
早期研究多以运营商通话数据作为唯一来源,所提取的贫困代理特征大致可分为聚合网络层面与用户行为层面两类。一类工作从聚合通信网络中提取宏观特征:Eagle等[86]基于英国32 482个社区的通话记录与多重贫困指数(IMD),首次量化验证了通信网络连接多样性与区域经济发展水平之间存在高度正相关关系[87-88];Smith-Clarke等[6,89]进一步从聚合移动通信数据中提取出活跃度、重力模型残差等可解释特征,构建了多层级贫困预测方法,回避了个体级数据的隐私敏感问题。另一类工作转向用户层面的行为特征:Blumenstock等[90]基于卢旺达通话详单重建了该国高分辨率财富分布图;Steele等[91]设计的五项流动性与通话行为指标可解释纳米比亚、尼泊尔和孟加拉国社会经济地位差异的50%~65%,初步验证了相关指标在不同文化背景下的稳定性;Aiken等[92-93]则将这类行为指标接入机器学习模型,相较政府传统资源配置方法将援助配错率降低了4%~21%,并证明仅基于手机特征的预测精度已接近基于资产与消费的传统调查方法。这一阶段的研究共同确立了移动大数据作为贫困代理变量的可行性,同时也暴露出仅依赖单一通信数据时精度有限、对最贫困人口存在覆盖盲区等问题。
为突破单一数据源的精度上限,后续研究开始系统引入遥感、人口、社会经济等辅助数据,并向更大空间尺度推广。Steele等[84]于2017年将CDR与遥感数据联合用于人口与健康调查(the demographic and health surveys,DHS)财富指数预测与贫困识别,发现二者单独构建的模型表现相当,而融合后预测能力显著提升、误差明显下降(见图3);同年,Pokhriyal和Jacques[94]基于高斯过程回归融合通话记录与粮食安全、设施可及性等环境数据,并采用弹性网正则化进行特征选择,对塞内加尔552个市镇的全球多维贫困指数(MPI)实现了较准确的预测,验证了多数据融合在提升预测精度方面的优势。针对数据稀疏场景,Njuguna和McSharry[95]证明稀疏CDR与夜间灯光、人口密度、地形等公开卫星数据相结合,可以较好估算卢旺达各行业层面的MPI。为增强跨区域泛化能力,Chi等[96]进一步将卫星数据、移动电话网络数据、地形数据与Facebook聚合去标识化连接数据接入机器学习模型,并基于56个中低收入国家的全国代表性家庭调查进行训练校准,最终以2.4 km分辨率绘制了135个低收入和中低收入国家的相对财富与贫困地图,将多源融合方案推广到全球尺度,覆盖了大量未开展过调查的行政单元。然而,Barriga-Cabanillas等[97]在2025年的近期研究中指出,移动大数据在静态贫困识别中表现良好,但对短期政策干预后的动态脱贫效果反应相对迟钝,未来更适合作为反贫困监测体系中的弱信号源,与实地调查数据深度结合才能保证评估准确性。
Fig.3Out-of-sample prediction performance for multiple poverty indicators based on the fusion of mobile phone and remote sensing data[84]
综合上述研究,移动大数据用于贫困识别的方法路径可归纳为特征提取、映射建模与跨区域泛化三个相互衔接的环节。在特征提取环节,研究者从CDR中挖掘通话频次、社交网络多样性、用户流动轨迹、消费行为等特征,并叠加夜间灯光强度、人口密度等遥感衍生指标,形成多源异构的输入向量。在映射建模环节,建模方法由早期的线性回归与相关性分析[86-87]逐步演进至高斯过程回归[94]、弹性网正则化[94]、梯度提升等机器学习方法[92-93,96],用以刻画特征与贫困水平之间的非线性耦合。在跨区域泛化环节,已有研究在一定程度上验证了模型的跨国迁移能力[92],但也暴露出三类局限:一是最贫困人口手机渗透率偏低,可能导致模型对极端贫困规模的系统性低估;二是训练地区与目标地区的社会经济差异越大,迁移误差越大;三是如Barriga-Cabanillas等[97]所指出的,已有模型对短期动态变化反应迟钝,在政策干预评估中尤为明显。整体来看,移动大数据更适合作为贫困空间分布的粗粒度、低成本先验估计工具。
4.2 经济评估
早期研究首先验证了区域通信网络和互联网使用模式与财富、失业率等经济指标之间存在可测量的相关性[86,100]。在此基础上,Hristova等[101]基于伦敦约3.7万名用户和4.2万个场所的数据,通过Foursquare场所网络与Twitter社交网络构建了中介性、熵、同质性和偶然性四项社会多样性指标。分析发现,贫困地区场所往往呈现高熵与高中介性特征,并伴随中产化趋势。这说明大型都市通过汇聚多元个体促进文化与知识交流,进而带动经济发展。Holzbauer等[102]则转向州际尺度,利用基于位置的社交平台数据构建社会联系网络,发现美国不同州之间的长程联系与各州的GDP、专利及初创企业数量等经济发展指标高度相关,而短程联系对经济发展的预测能力则相对较弱。
从区域网络特征下探到个体行为层面,规律同样清晰。Xie等[103]通过分析北京1 980名居民的GPS轨迹与社会人口数据,发现个体的日回转半径等移动特征与收入水平显著相关,说明人类行为模式可间接反映经济状况,为基于移动大数据的个体经济评估提供了依据。机器学习方法的引入使预测框架进一步精细化。Blumenstock等[90,104]在监督学习框架下,对通话频率、时间分布、基站切换等手机行为特征进行自动化特征工程,训练出可预测个体财富水平的模型,汇总后的预测结果与官方统计数据高度吻合;但该模型在单一国家内表现突出,跨国迁移后性能明显下滑,泛化能力存在上限(见图4)。针对这一不足,Gao等[99]提出流动性指标、活动足迹和出行图表三种人类移动性表示方式,并分别接入传统机器学习、卷积神经网络与时间序列图神经网络进行收入估算。基于深圳公共交通数据的对比显示,图结构表示配合深度学习模型效果最优,原因在于它能最小化信息损失并处理复杂数据结构;其中交通可及性等空间情境属性对预测贡献最大,活动范围与时间节奏类指标贡献相对有限。
Fig.4Wealth prediction (in Rwanda) and cross-regional generalization (in Afghanistan) based on mobile phone behavioral data[104]
近年来,越来越多的研究开始借助移动大数据深入揭示城市内部的经济隔离与不平等现象。Barbosa等[105]通过分析全球移动数据发现,城市居民移动模式与社会经济地位的相关性呈现两极分化:部分城市表现出“低收入群体出行距离短但频率高”的强相关模式;另一些城市则因公共交通普及、收入混合与设施分布均衡,相关性较弱。这一结果为基于移动大数据评估区域社会经济不平等提供了重要实证基准。Nilforoshan等[106]进一步聚焦接触层面的隔离,基于美国382个大都市区960万人的16亿次实际接触数据,提出暴露隔离度量方法。结果显示,大型国际化地区的居民接触不同社会经济背景人群的机会反而较少;大城市因其为不同社会经济群体提供差异化的空间选择,往往加剧社会经济隔离,但若城市枢纽能够连接多元社区、吸引不同社会经济背景的人群,则可缓解这一隔离效应。Liao等[107]系统梳理了社会空间隔离与人类移动性关系的实证研究,重点探讨了如何利用移动大数据动态测量隔离,并分析其成因与缓解策略。Renninger等[108]则结合美国GPS位置数据与人口普查收入数据,分别从设施访客收入多样性(设施隔离)与居民日常接触多样性(邻里隔离)两个维度量化城市混合的动态空间结构。该研究用空间自相关分析识别连续区域集群,用决策树解析驱动因素,最终描绘出美国城市普遍存在的“郊区隔离环”与“城内隔离口袋”宏观格局,其中低收入与少数族裔社区更容易陷入双重隔离。
上述研究跨越了从区域通信网络、州际联系、个体行为到城市内部接触结构等多个尺度。若从研究方法的视角对这些工作加以横向审视,可在三个层面观察到较为一致的规律。在特征构建层面,研究输入由单一CDR通信指标[86,100]逐步扩展为融合个体轨迹、社交网络结构与POI访问行为的多模态向量[99,101,106],特征所反映的社会语义信息越丰富,预测精度的上限通常也越高。在模型选择层面,建模方法由早期的相关性分析与线性回归,向监督式机器学习乃至图结构深度学习演进。Gao等[99]在深圳公共交通数据上的对比表明,图结构表示配合深度学习模型在捕捉空间依赖关系时优于传统机器学习方法,但代价是可解释性下降、对训练数据量的需求更高。在模型可迁移性与稳健性层面,已有模型在单一城市或国家内部往往表现良好,跨区域迁移时性能明显下滑[6,89-90,104],其原因一方面在于手机渗透率与用户活跃度差异带来的人群偏差,另一方面在于不同城市、不同国家之间社会经济结构与流动模式本身存在系统性差异[105]。因此,移动大数据在经济评估中更适合用于识别结构性规律与空间异质性,难以直接替代传统统计调查;将其与官方统计、专项调查等数据深度融合,是提升评估稳健性的可行方向。
4.3 疫情防控
人类移动,尤其是大规模、突发性的人口流动,与传染病的时空传播存在内在耦合的复杂关联关系[109]。局部疫情可能因为人口流动迅速扩散为广泛的大流行。移动大数据通过精准捕捉人群日常出行模式,为实时追踪疫情动态提供了关键支持,并成为研究传播机制的重要数据基础[110-111]。
在疫情扩散预测方面[112-116],移动大数据的核心价值在于以高时空分辨率刻画人口外流与本地活动模式,进而预判病例的空间分布。Jia等[3] 基于武汉封城前的人口外流数据,揭示了流出量与COVID-19在中国296个城市分布的高度相关性,并据此构建了识别高传播风险区的风险源模型。Perofsky等[117]在美国西雅图地区进一步证实,学校访问量与区域人员流动等移动性指标对18种呼吸道病毒的传播动态具有较强预测能力。Zhu等[118]通过分析地理标签社交媒体数据,量化了疫情后人群活动的异质性变化,发现工作场所、零售娱乐与交通枢纽等场所访问量下降16.8%~57.7%,住所附近的近程活动则有所增加,且这种变化在年龄、教育与婚姻状态等人口学维度上呈现系统性差异。
在传播动力学建模方面,Lu等[119]系统总结了整合移动数据的四类模型:舱室模型将聚合流量数据嵌入元群体结构的空间耦合项,网络模型基于个体接触数据构建显式传播拓扑,智能体模型直接以个体轨迹驱动仿真,机器学习模型则将移动特征作为高维输入进行端到端预测。在该框架下涌现出多类代表性工作:Zhang等[120]基于接触调查的网络模型识别了儿童与老年人在SARS-CoV-2易感性上的显著差异,并表明仅靠社交距离即可将基本再生数压至流行阈值以下,提前关闭学校虽不能阻断传播,但可显著降低发病峰值;Chang等[121]整合美国十大都市区动态移动网络构建易感者-暴露者-感染者-康复者(susceptible-exposed-infected-recovered,SEIR)元群体模型,发现少数“超级传播点”POI是主要感染源,针对性容量限制比无差别管控更为有效,并揭示了因弱势群体流动模式差异展现的感染不平等;Romanescu[122]则将聚合移动数据中的接触率与人群总接触数关联,基于合成网络模型[123]开发出可动态适应流动性变化的传播模型,一定程度上缓解了传统模型中传播概率与接触次数的不可识别性问题。这些工作的共同进展,是将疫情传播中的接触结构从静态假设转变为可由移动大数据持续修正的动态变量。
疫情中后期,研究重点通常会转向对非药物干预(non-pharmaceutical interventions,NPI)措施的量化评估。这类问题的核心方法论挑战在于反事实构建,由于无法观测未实施干预的平行现实,研究者通常依赖经移动大数据校准的传播模型生成反事实基线,再通过对比有无干预情景下的模拟轨迹来量化政策效果。该方法的可靠性高度依赖模型校准的准确性以及移动大数据对真实接触模式的代表性。Chinazzi等[124]基于全球元人口模型发现,武汉旅行禁令仅将中国内地疫情进展延迟3~5 d,却使2月中旬前国际病例输入减少近80%;进一步分析表明,单一旅行限制若不与社区干预协同,对总体疫情走势的影响有限。Aleta等[125]将匿名化、地理定位的流动性数据与人口普查和人口统计数据整合,构建波士顿大都市区的SARS-CoV-2传播模型,指出在缺乏群体免疫的条件下,强化检测与接触者追踪可在维持经济活动的同时将疫情控制在医疗系统承载范围内。Cheng等[126]则在北京城市出行数据上证明,POI容量限制与社区动态管理可在显著抑制感染的同时尽量减少对城市流动性的干扰。上述工作虽采用不同模型与情境,但共同指向同一判断,即精细化、差异化的干预方案优于无差别的全面管控,且评估结论对模型校准精度高度敏感。
流动性干预对社会网络结构的多尺度影响是疫情防控领域的另一重要议题。Tan等[61]基于中国3.18亿名移动电话用户的匿名化数据,揭示了2020年从春运到封锁期再到恢复期的极端流动波动,发现干预措施使全国流动下降超70%,延迟了7 280余万人返回大城市(见图5);对出行网络的进一步分析显示,恢复期内超过55%的“城市对”净流动方向发生反转,较小城市间的连接更趋紧密,形成新的城市群结构。Zhang等[127]对上海Omicron BA.2疫情期间手机信令的分析则显示,封锁期间社区数量由40个碎片化为221个,重启后仍未能完全恢复。Santiago-Iglesias等[128]对京都和马德里疫情前、中、后期手机信令的对比表明,COVID-19对城市夜间经济产生了显著的差异化影响。这些发现共同说明,干预政策不仅作用于个体行为,也会重塑城市内部及城市之间的连接结构,且部分结构性变化具有一定持续性。
综合上述研究,移动大数据已深入疫情防控研究的多个环节,从疫情扩散的前瞻预测,到传播模型中接触结构的动态化构建,再到非药物干预措施的反事实评估与干预后社会网络变化的量化分析。然而,当前方法仍面临若干共性局限:一是时间尺度不匹配,移动数据通常以小时或天为粒度,而传播动力学需要考虑潜伏期等更长周期的时间结构;二是行为内生性,干预政策会同时改变人群移动模式与传播动态,两者的相互作用使因果推断更为困难;三是数据代表性偏差,手机信令、社交媒体签到、GPS轨迹等不同移动数据源的人群覆盖存在系统性差异,可能导致模型估计偏倚。
Fig.5Aggregated population flows for all prefectures in China from 1 January to 29 February 2020[61]
4.4 应急响应
地震、飓风等自然灾害因突发性强、破坏力大、社会影响广泛,对应急管理能力构成了严峻挑战[129]。在此背景下,移动大数据凭借其全时空覆盖、高动态更新及强社会属性关联等优势,为捕捉灾害冲击下的人口流动与社会交互特征提供了全新视角。
灾害冲击下,大规模人口迁移是常见现象,也为救援部署带来巨大不确定性,因此对受灾人群迁移规模与地理分布的实时追踪是应急研究的首要任务[14,130]。早在2011年,Bengtsson等[60]通过分析海地地震期间190万张匿名用户身份模块(subscriber identity module,SIM)卡的位置数据,近实时估算了灾前灾后的人口流动规模与地理分布,其结果与联合国回溯性调查高度吻合,表明即使在极端混乱的灾后环境中,人口迁移仍呈现可追踪、可预测的宏观规律。Lu等[130]对同一数据集进一步分析后发现,太子港震后人口虽减少23%,但个体轨迹的可预测性仍维持在85%,且在灾后三个月内略有上升,反映出灾后人口流动与正常时期的流动模式高度相关,并倾向于流向具有强社会纽带的地点。Wilson等[131]在尼泊尔地震中将这一思路扩展为标准化流程,通过异常流动矩阵在9 d内完成加德满都谷地的近实时人口迁移评估,识别出震后人口流动呈现北部低返回、南部高返回的空间分异格局。Jia等[132]也基于雅安地震后的移动通信数据发现,家庭成员之间社会关系联系越紧密,灾后越倾向于优先联系家庭成员,并形成更强的家庭内部通信协同(见图6)。Dobra等[133]进一步表明,呼叫与移动频率的波动可作为通用信号,用以识别节日、地震、洪水、暴力事件、抗议活动等多类紧急事件下人类行为的异常变化。这些工作共同表明,移动数据能够在传统灾情统计到达之前,提供可靠的人群迁移估计与异常事件预警。
此外,移动大数据还能进一步刻画灾后行为响应的微观结构与群体差异。Tang等[134]对2021年郑州“7·20”极端洪水期间手机信令数据的分析显示,整体移动网络在灾害扰动下结构保持稳定,但女性、青少年和老年群体因难以维持日常出行频率而呈现较低的移动韧性;研究还识别出“反向浴缸”“不断增加”与“不断减少”三类反直觉但广泛存在的韧性模式,反映出避灾响应中的多样化机制。Huang等[135]的综述也同样指出,移动性韧性在群体与空间维度上均存在分异,女性、老年人与低收入群体的恢复能力相对不足,灾害影响往往通过脆弱性路径被放大。气候灾害情境下也观察到类似规律:Lu等[136]对孟加拉国“马哈森”气旋的研究发现,预警与风暴登陆期间均出现短期人口流动异常,异常程度与降雨强度相关,但风暴过后数周内并未出现大规模永久性人口迁移(见图7);Yao等[137]对美国2024年飓风Helene与Milton期间移动设备足迹的分析则显示,沿海地区居民在登陆前出现明显外迁、灾后高流动性持续较长时间,而内陆地区移动变化相对微弱,体现出历史灾害暴露程度对应急行为的塑造作用。上述研究反映出灾害响应行为在群体与地理维度上均存在系统性异质性,单一总体指标难以准确反映人群的真实承灾能力。
Fig.7Comparison of mobility flow networks before cyclonic landfall and baseline population movements in Bangladesh[136]
基于社交平台的互联网定位数据为灾害响应提供了另一条信息通路。在灾情发生初期,社交媒体中的求助、转发与情绪表达往往比官方信息更早抵达救援端[26]。Kryvasheyeu等[138]利用带地理标签的社交媒体推文密度重建了飓风“桑迪”的演进路径与影响范围,发现处于网络中心位置的用户往往能比随机样本提前数小时感知并传播灾害信息。张谱等[26]则整合2021年山西、河南、湖北三场暴雨洪涝灾害的新浪微博数据,采用基于Transformer的双向编码器表征(bidirectional encoder representations from Transformers,BERT)微调模型开展情感分析与关键词共现语义网络挖掘,刻画了灾害舆情的时序演化、情感极化及主题结构,发现舆情峰值与关键事件同步,但情感分布随灾情严重性出现差异。然而,社交媒体数据本身存在显著局限:Mandal等[139]在飓风“哈维”Twitter数据上的分析表明,仅极少数消息带有真实地理标签,依赖用户资料位置或推文内容推断地理位置存在较大不确定性,且不同定位方法间的一致性随地理尺度细化而下降。针对这一不足,Zhou等[140]开发了主动收集第一手灾害观测的参与式移动应用,可在离线条件下实时获取地理标签、分类及多媒体信息,为弥补被动数据的代表性问题提供了一种可行思路。
综合已有研究,移动大数据在应急响应中的应用已从早期对人口位移规模与分布的近实时追踪,扩展到灾后行为响应与移动韧性的群体差异分析,并进一步借助社交平台的位置与文本信息支撑突发事件发现与舆情监测。相关方法已在海地地震[130]、尼泊尔地震[131]、郑州洪水[134]、孟加拉国气旋[136]与美国飓风[137-139]等情境中得到检验,显示出一定的跨灾种、跨区域适用性。数据来源也由通话详单扩展到手机信令、社交媒体地理标签与移动设备足迹等多类数据;分析方法由流动统计与网络可视化,逐步拓展到情感分析[26]、行为模式识别[132]和移动韧性测度[134]等方面。然而这类研究仍存在若干局限:极端灾害可能造成关键时段数据缺失,CDR数据中的用户活跃度差异可能引入人口估计偏差,社交媒体数据则面临地理标记不足与样本代表性有限的问题[139]。未来仍需在多源数据交叉验证、方法适用性检验与数据偏差校正等方面进一步加强,以提升应急响应分析的可靠性。
5 总结与展望
社会治理是应对复杂公共挑战、保障社会长期稳定与公平发展的重要研究方向。近年来,移动大数据驱动的理论与应用研究在实现精准、高效社会治理方面取得了许多有益的进展与尝试。通过从个体移动轨迹和群体人口流动数据中挖掘人类行为规律、构建出行网络或接触网络,结合社交关系、社会经济数据和地理空间数据,能够显著提升贫困识别、经济评估、疫情防控以及应急救灾的预测精确性和事件响应速度。然而,尽管新的数据源和数据驱动的研究方法在解决社会治理问题中展现出重要价值,某些局限性仍需进一步探索和解决。
一是移动大数据的可代表性与数据偏差。虽然移动大数据具有收集成本低、真实性较高、覆盖范围广、时空精度高等优势,能够有效补充甚至在某些情况下取代传统调查数据,但其固有偏差问题仍值得警惕。移动大数据多源自非社会治理用途的系统,其采集方式与技术路径易引入系统性偏差[141]。例如,早期手机用户群体明显偏向于经济条件较好、男性、年轻及受教育程度较高的人群[142];在基于通信行为(如通话、短信或移动数据使用)生成的手机信令数据中,低收入群体因通信成本限制,所产生的行为数据较少,移动轨迹的完整性也较差[143];同时,受商业利益驱动,运营商网络覆盖在城乡间并不均衡,农村地区基站稀疏,导致移动轨迹的空间分辨率低于城市。类似地,公共交通数据缺失私家车出行群体;来自智能手机应用与社交平台的定位数据也受到平台目标、算法策略及用户互动模式的影响,例如为提升用户活跃度而设计的机制可能无形中引入使用频率与行为类型的偏差[144]。若不能有效识别并校正此类偏差,将直接影响基于移动大数据的研究结论与决策支持的可靠性。明确数据覆盖人群的构成、轨迹重建的粒度及其生成机制,是处理有偏和不完整数据的重要前提。然而,目前针对移动大数据偏差的简易或标准化校正方法的文献仍少见报道[113,145]。
二是移动大数据的隐私保护与使用合规性问题。移动数据通常蕴含高度敏感的个人行为信息,包括出行轨迹、职住地点、经济状况、社交网络、常访地点偏好等能够刻画个体生活模式的详细信息[11]。此类数据一旦泄露或遭滥用,可能直接威胁个人隐私与财产安全。然而,当前用户在数据分享意愿上存在态度差异,例如部分用户若预期能获得实质性服务或便利,即便心存隐私顾虑,仍可能选择提供数据[146]。这种差异不仅影响数据的全面性,还可能进一步加剧已有样本的结构性偏差。更关键的是,在移动大数据的收集与使用环节,尚未形成清晰、统一的知情同意标准。尤其在应用程序位置信息收集中,用户往往面临全有或全无的授权选择,难以对其信息的后续用途进行有效控制;加之隐私政策常存在表述模糊、阅读门槛高等问题,导致真正的知情同意难以实现,构成了移动大数据合规治理的长期挑战。
尽管存在上述需要重视并改进的问题,移动大数据在人类行为规律挖掘、网络模型研究及社会治理领域的应用仍然具有巨大的潜力和机遇,主要包括:
第一,多源数据融合与时空语义对齐。多源数据融合已在贫困识别、流行病传播建模等场景中显示出较高潜力,但其核心难点并不在于简单的数据叠加,而在于异构数据之间的时空语义统一。不同数据源对应的空间单元和行为含义存在本质差异,例如手机信令依托基站覆盖范围、公共交通数据依托站点、社交媒体数据依托POI、物联网数据则依托传感器覆盖区域。现有研究多通过网格化聚合或空间插值实现对齐,但这类方法往往难以兼顾边界误差控制与行为语义保真。未来有必要探索基于点过程理论、贝叶斯空间统计或统一表征学习的跨源融合框架,在保留原始语义信息的基础上提升时空对齐精度。与此同时,多源融合还面临人口代表性偏差与跨机构协同两方面挑战。不同数据源在年龄、城乡、教育水平和出行方式上的覆盖偏差并不一致,简单融合可能进一步放大样本偏倚。这种偏差在单一数据源研究中已有所讨论,但在多源融合场景下,不同偏差方向的数据叠加可能产生复杂的交互效应,现有研究对此仍缺乏系统讨论。未来可借鉴统计调查领域成熟的事后分层(post-stratification)与多重插补(multiple imputation)方法,结合人口普查数据对融合数据集进行有偏样本的权重校正,并建立针对融合数据集的偏差量化评估规范。此外,高质量融合往往涉及运营商、交通部门、政府机构及平台企业之间的数据协同,既受制于格式、频率和接口差异,也受制于数据权属和共享机制。联邦学习(federated learning)框架为在不集中原始数据的前提下实现跨机构模型训练提供了技术路径,但其在时空序列数据上的通信效率与模型收敛性仍有待针对性优化;差分隐私(differential privacy)技术可在数据发布环节提供可量化的隐私保障,但目前缺乏隐私预算的设定与数据效用损失之间的系统性权衡方法。上述技术问题的解决,需要与数据治理法规的完善同步推进,形成技术与制度的协同突破。
第二,隐私保护计算与灾害场景实时响应。隐私保护与实时计算的平衡,是移动大数据服务社会治理的关键问题,在应急响应场景中尤为突出。联邦学习、安全多方计算和同态加密等隐私计算方法已形成较为丰富的技术体系,但在移动轨迹和时空序列场景中的工程化应用仍面临挑战。例如,联邦学习在处理高度异质的时空数据时通常存在收敛慢、通信成本高等问题;同态加密在复杂轨迹分析中的计算开销也仍然较大。未来需要针对时空数据的高维、相关和聚类特征,设计更轻量的隐私保护协议,并探索差分隐私与联邦学习的联合机制。此外,极端灾害可能破坏通信基础设施,使依赖云端集中处理的分析框架在关键时刻受限。因此,有必要将计算能力进一步下沉至基站侧或终端侧,构建面向网络中断条件的边缘计算架构。未来研究可围绕轨迹流式压缩、增量特征提取、边缘节点协同一致性以及“够用即止”的精度控制机制展开,以在有限时间和资源下优先保障关键区域的态势感知。边缘计算与联邦学习在技术上具有互补性,两者结合有望为隐私保护条件下的分布式实时治理提供新方案。
第三,人工社会生成与大模型驱动的数字推演。生成式人工智能与大语言模型(large language model,LLM)的发展为移动大数据研究从“描述与预测”走向“生成与干预评估”提供了新的方法[147]。首先,在轨迹生成与数据增强方面,面对移动大数据在特定区域、特定人群或特定时段覆盖不足的固有缺陷,基于生成对抗网络(generative adversarial networks,GAN)、变分自编码器(variational autoencoder,VAE)与扩散模型(diffusion model)的轨迹合成方法,有望在一定程度上保留统计特征并生成较高保真度的合成移动数据,满足数据稀疏与隐私限制的双重约束。与此同时,生成式模型可对极端事件(如大规模疫情暴发、强烈地震)下的人口流动情景进行反事实推演,突破真实历史数据的事件覆盖局限,为应急预案的压力测试提供仿真支撑。然而,合成数据的统计保真度评估目前缺乏统一标准,现有评估指标多聚焦于宏观分布特征(如出行步长分布、回转半径分布)的相似性,而对个体轨迹时序相关性、地点偏好返回特征等细粒度规律的保真程度关注不足;若合成数据在这些细粒度特征上存在系统性偏差,基于其训练的治理模型将产生隐性的预测误差,且难以通过宏观指标发现。其次,在智能体仿真方面,大语言模型为传统多智能体系统提供了新的行为建模思路。传统多智能体模型的个体行为规则通常由研究者手工设定,难以捕捉真实人类在复杂情境下的认知过程、情感响应与社会规范约束。将LLM作为智能体的“认知引擎”,赋予其自然语言理解、情境推理与角色扮演能力,有望生成更接近真实决策逻辑的个体行为模式。但该方向仍面临两个核心技术瓶颈:一是仿真规模与计算成本的矛盾,真实城市级人口仿真需要数百万级智能体,而当前LLM的推理延迟与资源消耗使得百万级智能体规模的实时仿真在现有算力条件下尚不可行,需要探索分层代理(hierarchical agent)机制,以少量LLM智能体代理大规模均质人口群体;二是LLM行为与真实移动规律的校准问题,LLM智能体的决策逻辑源于文本语料训练,其生成的出行行为是否符合移动大数据揭示的幂律分布、周期性等统计规律,目前缺乏系统性的校准与验证方法,需要将实证规律显式嵌入LLM的提示工程或微调过程,以约束其行为输出的统计合理性。在政策评估与因果分析方面,LLM可辅助整理政策文本、历史案例和领域知识,为因果图构建与反事实分析提供先验支持,并与双重差分、合成控制等方法相结合,增强移动大数据研究的解释力。总体而言,大模型在社会治理中的应用仍处于探索阶段,其更适合作为辅助分析、情景推演与方案评估工具,而非独立决策系统。未来应强调其与移动大数据、机理模型及因果推断方法的协同融合,在提升分析能力的同时控制风险。




