应用研究

交通违法行为多维时空关联规则挖掘研究——以广州市为例

  • 代兴龙 ,
  • 马林兵 ,
  • 胡靖元
展开
  • 中山大学 地理科学与规划学院,广州 510006
马林兵(1968—),男,四川南充人,博士,副教授,硕士生导师,主要从事地理信息系统理论与方法、交通与土地利用关系研究。E-mail:

代兴龙(1999—),男,贵州毕节人,硕士研究生,主要从事地理信息系统理论与方法研究。E-mail:

收稿日期: 2024-01-20

  修回日期: 2024-03-01

  网络出版日期: 2024-12-13

Research on Spatio-Temporal Association Rules Mining of Traffic Violations: A Case Study of Guangzhou City

  • DAI Xinglong ,
  • MA Linbing ,
  • HU Jingyuan
Expand
  • School of Geographical Science and Planning, Sun Yat-sen University, Guangzhou 510006, China

Received date: 2024-01-20

  Revised date: 2024-03-01

  Online published: 2024-12-13

摘要

探究道路违法事件背后的潜在规律,一方面可以从源头减少危险驾驶行为,维护社会和谐稳定;另一方面可以更好地适应城市交通的高效率、高质量发展,提升交通治理精细化水平。因此,对城市内的交通违法行为开展热点探测与影响因素分析,是准确认知交通违法态势与规律的重要前提。本研究以广州2015年10月的交通违法数据为例,进行不同类别的交通违法行为时空热点分析与关联规则挖掘,基于FP-Growth算法挖掘交通违法行为数据中的违法行为种类、发生时间、空间位置和车辆信息等的关联关系,发现本地大型汽车更易发生无环保标识和违规使用车道的行为,外地小型汽车则更多发生超速行为;工作日早晚高峰与发生违反禁令标志行为存在较强关联,而非工作日则与高速公路上的交通违法行为存在较强关联。通过将POI数据及空间位置信息引入关联关系挖掘,能够较准确地识别特定路段或公共设施附近的高发违法行为,为定点交通治理提供支持。

本文引用格式

代兴龙 , 马林兵 , 胡靖元 . 交通违法行为多维时空关联规则挖掘研究——以广州市为例[J]. 华南地理学报, 2024 , 2(2) : 11 -19 . DOI: 10.20125/j.2097-2245.202402002

Abstract

Exploring the underlying laws behind road illegal incidents can reduce dangerous driving behaviors at the source and maintain social harmony and stability. It can also help the development of urban traffic with high efficiency and high quality, and improve the level of refined traffic governance. Therefore, the analysis of influencing factors of traffic violations in cities is an important prerequisite of accurate analysis of the laws of traffic violations. In this study. The authors took traffic violation data of Guangzhou in October 2015 as an example, and the association rule mining(ARM) of traffic violations and various influencing factors was carried out. Based on the FP-Growth algorithm, this paper excavates the relationship between the types of illegal activities, the time of occurrence, the spatial location and the information of the vehicles in the traffic violation data. It is found that large vehicles of local city are more likely to have no environmental protection signs and illegal use of lanes. Cars from other cities are more likely to overspeed; morning and evening peaks on working days are strongly related to violations of prohibition signs, while traffic violations on highways are more likely to occur on weekends. By introducing POI data and spatial location information, this article can more accurately identify high-incidence traffic violations near specific road sections or public facilities, and provide support for fixed-point traffic governance.

随着社会经济的发展,汽车给人们提供极大便利的同时,也增加了交通事故的隐患。因此,探究交通违法事件背后的规律成为交通治理中越来越重要的一环,而探寻城市内交通违法行为的影响因素是认知违法行为规律的关键。国内外学者通过对交通违法行为影响因素进行分析,揭示了各类主客观因素对交通违法行为发生的影响,为交通治理提供了依据。
Das等1通过关联模式挖掘分析了性别、年龄等因素对交通事故的影响,发现路段照明对交通事故发生有较大影响。罗慧等2使用因子分析得出了不同气象条件对交通事故发生的影响。Chen等3指出疲劳驾驶、超速和缺少驾驶经验是造成重大伤亡交通事故的主要原因。Pulugurtha等4评估了交叉路口处摄像头对减少碰撞事故发生的影响。尽管这些研究在交通安全领域取得了一定的进展,但多集中于交通事故的影响因素分析,忽略了对交通违法行为的系统研究。
关联规则挖掘作为数据分析的一种重要方法,被广泛应用于众多领域。其主要算法有Apriori、FP-Growth、Eclat等。随着关联规则挖掘算法的广泛应用,越来越多的学者将其应用于交通安全领域5-9,且大部分研究集中在使用各类方法对交通事故进行影响因素分析10-13。然而,这些研究大多集中于交通事故数据分析,而数据常由人工填写,存在主观性和遗漏小型事故的问题。而交通违法数据主要来自自动采集设备,具有数据量大、格式规范、客观性强等特点,更适合关联规则挖掘。现有研究较少引入时间和空间变量进行时空关联分析,特别是在交通违法行为领域的研究更为匮乏。
本文使用广州市2015年10月的交通违法数据,尝试从数据采集的时间、空间和各类属性多个维度进行关联规则挖掘,提取并展示时间、地点、车辆和环境因素与各类交通违法行为之间的关系,从多角度对交通违法行为的影响因素进行挖掘分析,并基于实际情况对得到的关联关系进行分析解读。在此基础上,将POI数据引入关联分析,进一步分析各类城市公共设施点与交通违法行为的关联关系。以期为精准化的交通治理提供科学依据。

1 研究区与数据

1.1 研究区概况

本文以广州市主城区作为研究区域,基于广州市交管部门2015年10月的交通违法行为发生地记录,原始数据共计353 741条,数据来源为自动抓拍设备采集的数据和人工记录的违法数据(可视化见图1)。
图1 交通违法行为发生地空间分布

Fig.1 Spatial distribution of traffic offenses

1.2 实验数据

交通违法数据包含违法行为发生地的时空信息及其他描述数据,其中包括行为发生的日期、时间、地址、具体行为描述和天气状况等几个属性,提取出某一数据条目9个重点属性进行脱敏处理,详细信息如表1
表1 广州市交通违法数据属性

Tab.1 Guangzhou traffic violation data attributes

字段 数据 描述
违法编号 44 011*** 违法行为的唯一编号
号牌号码 粤A*** 车牌所在地
违法日期 2015/10/1 日期描述(年/月/日)
违法时间 14:39:18 -
违法地址 广州大道*** 行为发生地址
违法行为 1 345 违反禁止标线指示
天气状况 当日天气
温度等级 22 ℃ 当日温度
号牌种类 02 01为大型汽车,02为小型汽车,03为其他车辆

2 研究方法

2.1 数据编码

由于原始数据中存在少数偏差、重复或缺失值,为保证后续分析工作的合理性和准确性,本文对原始数据进行了3个方面的预处理。

2.1.1 地理编码

交通违法数据的位置信息以文字描述的地址表示,存在相同位置使用不同文字描述的问题,且文字描述无法量化空间位置。因此,需要将地址信息转换为经纬度坐标以便分析。为了提高转换效率,本文采用百度LBS API接口进行地理编码。由于地址描述的多样性,地理编码结果可能存在一定的不准确性,需人工检查并纠正转换结果。

2.1.2 数据清理

数据中存在一定的人工记录字段,可能包含不完整记录、错误记录或重复记录。在分析前,需要删除这些数据,并通过去重和清理来保证数据的唯一性和重要字段的完整性。同时,剔除位于研究区域外的数据。

2.1.3 数据分类编码

交通违法行为包含多种属性。通过对数据属性进行归类,可以更方便地探究类别内部和类别之间的关联关系。本文将交通违法行为的字段属性归为4类,分别是时间信息、空间信息、事件种类和车辆信息。为了方便项与项之间的比较,对每个数据字段进行字符编码。由于时间属性具有连续性,无法用于离散数据的关联算法,因此需要将其分段归类。根据交通违法行为发生的时间分布(图2),主要分为5个阶段:①早高峰时段(6∶00~11∶00),该时段的交通违法数量从低到高然后稍有回落;②午间时段(11∶00~17∶00),该时段的交通违法行为维持在较高的稳定数量;③晚高峰时段(17∶00~22∶00);④夜间时段(22∶00~6∶00),该时段的整体事故发生数量最低。其中,由于午间时段事故发生数量最多(52.24%),为保证关联结果的有效性,将其细分为11∶00~14∶00和14∶00~17∶00两个时段。
图2 交通违法行为时间分布

Fig.2 Time distribution of traffic violations

具体的编码方式见表2
表2 交通违法数据字段分类编码

Tab.2 Traffic violation data field classification code

序号 字段 内容描述 所占比例/% 字段类别
1 违法日期 D1=工作日 61.28 时间信息
D2=非工作日 48.72
2 违法时间 T1=上午[6∶00~11∶00) 30.76 时间信息
T2=中午[11∶00~14∶00) 20.71
T3=下午[14∶00~17∶00) 31.53
T4=傍晚[17∶00~22∶00) 10.87
T5=深夜[22∶00~6∶00) 6.13
3 天气 W1=晴 30.82 时间信息
W2=多云 52.92
W3=阴 3.49
W4=雨 12.77
4 违法地址 A1=番禺区大石街段,……A3218=作新桥路口 -- 空间信息
5 违法种类 I1=违反规定临时停车……I45=超速10%以下 -- 事件类型
6 车辆类型 C1=大型汽车 7.72 车辆信息
C2=小型汽车 91.84
C3=其他车辆 0.44
7 车牌种类 P1=本地车辆 90.39 车辆信息
P2=非本地车辆 9.71

2.2 FP-Growth算法

经典的关联规则由Agrawal等14针对购物篮问题而提出,主要解决商场中哪些商品更有可能被同时购买的问题。关联关系可作以下定义:假设需要研究多个项目之间关联关系,项目有项集 I = I 1 , I 2 , , I m,给定一个事务数据库 D = { t 1 , t 2 , , t n },其中, t i为数据库中的项,并且每一项具有 t i I,且具有唯一标志TID,则关联关系可以被描述为 X Y,其中 X , Y I X Y = X称为关联中的先导项, Y为后继项。在关联模式的定义中存在2个关键参数:支持度与置信度,其中支持度描述了某种关联关系在所有项集中出现的概率,置信度描述了在 X发生的条件下 Y发生的概率,确定一种关联关系有效的条件为同时满足支持度和置信度的最小阈值。
在交通违法行为中,时间要素包括违法行为发生的具体日期,如上下午、是否工作日等;空间要素包括违法行为发生的地点,如交叉路口、道路类型等。为得到数据间的关联关系,本文首先对交通违法数据中的时间要素进行分段关联;其次基于关联规则算法分析交通违法事件发生时间的内在规则;最终结合POI数据分析出交通违法发生的空间位置与城市功能区的关联关系。
目前被广泛使用的关联规则算法有Apriori,FP-Growth和Eclat等。表3比较了几种常用关联规则挖掘算法的原理及特点。
表3 广州市交通违法数据属性

Tab.3 Guangzhou traffic violation data attributes

算法 原理 特点
Apriori

多次遍历得到频繁集,

在频繁集中搜索关联规则

通过简单的集合规则搜索关联规则,但速度较慢
FP-Growth 构建频繁模式树对频繁集进行压缩,在频繁模式树上寻找关联规则 与Apriori算法相比提升了计算速度和减少了空间占用,但计算较复杂
Eclat 基于垂直格式的倒排表,通过对表中数据不断求交集得到频繁集项 操作较简单,但求交集过程较慢且需要大量内存
基于以上算法特点,考虑到本文研究数据量较大,因此FP-Growth相比其他算法具有比较明显的效率优势,且后续实验能得到较好的关联结果。FP-Growth算法的主要特点是通过多次构建条件模式基的方式得到条件FP-Tree,并在FP-Tree中自下向上回溯来获得频繁集项,其主要计算过程如图3所示。
图3 FP-Growth算法过程

Fig.3 FP-Growth algorithm process

3 多因素关联规则实例分析

基于交通违法行为背后可能存在多种共同影响因素的前提,本文通过FP-Growth算法提取数据中符合一定支持度的项集,并将行为中的多种属性进行关联,计算不同频繁集的置信度,以揭示多种属性之间的相互影响关系。下文将按因素分类分别对关联关系进行挖掘和分析。

3.1 车辆类型与交通违法行为的关联

车辆类型与违法种类的关联分析,可以反映不同车辆类型与特定违法行为的关系。由于数据量较大,特定行为在整体违法行为中占比较小。如果最小支持度阈值设定过高,则得到的关联规则过少;若设定过低,则会生成大量低价值的规则。为获得高置信度的关联规则,本文最终将支持度设为0.002,置信度设为0.8。重点展示大型汽车(7.72%)与非本地车辆(9.71%)相关的规则,计算规则提升度后,将关联规则按置信度由高到低的顺序展示(表4)。
表4 交通违法与车辆因素关联规则挖掘

Tab.4 Traffic violations and vehicle factors related to rule mining

序号 前导项 后继项 支持度 置信度 提升度
1 未取得环保检验合格标志,本地牌照 大型汽车 0.002 0.91 1.02
2 违反规定使用专用车道,本地牌照 大型汽车 0.003 0.85 1.06
3 违反禁令标志外地牌照 大型汽车 0.003 0.83 1.12
4 超速未达20%外地牌照 小型汽车 0.002 0.82 1.05
表4中可以看出,大型汽车在车道使用和环保检验标志相关规定上存在较多违法行为。这可能是由于对大型汽车的交通管制与限制较多。外地牌照的小车发生超速行为可能是由于外地车辆对当地交通规则不熟悉。
基于以上结果,交管部门应加强对大型车辆占道行驶行为的专项治理,引导大型车辆避免在早晚高峰时段出行,保障交通安全。同时应重视当地交通信息的主动发布工作,让驾驶人便捷快速地了解目的地交通信息,避免外地车辆因缺乏了解相关信息而发生的交通违法行为。

3.2 时间因素与交通违法行为的关联

时间因素是交通违法行为发生的重要影响因素之一。通过仅保留时间因素与违法种类进行规则挖掘,尝试反映某种违法行为高发的时间段。多次实验后,将支持度设定为0.005,置信度为0.8,得到7条规则,计算提升度后按置信度由高到低的顺序展示,结果见表5
表5 交通违法与时间因素关联规则挖掘

Tab.5 Traffic violations and time factor correlation rule mining

序号 前导项 后继项 支持度 置信度 提升度
1

机动车临时停车,

傍晚

工作日 0.007 0.86 1.21
2 机动车不在机动车道内行驶 工作日 0.005 0.86 1.13
3

违反禁令标志,

傍晚

工作日 0.005 0.85 1.15
4

违反禁令标志,

上午

工作日 0.005 0.85 1.26
5

在高速公路遇交通拥堵,

占用应急车道行驶

非工作日 0.006 0.85 1.08
6 非紧急情况下在高速公路应急车道上行驶 非工作日 0.005 0.84 1.08
7

机动车临时停车,

上午

工作日 0.005 0.82 1.13
表5可以看出,工作日的通勤需求较大,驾驶员容易产生焦急心理,发生占道行驶等行为。这表明,违反规定使用车道的行为与工作日时段关联较大;而非工作日则多发生非应急情况在高速公路紧急停车的行为,这是由于非工作日出游、返乡等活动增加,高速公路上发生拥堵,出现占道行驶等行为。
在工作日的早晚高峰时段,多发生临时停车和违反禁令标志的行为。此时段内城市道路车流密度较大,出于上下班通勤、临时购物等需求,车辆集中在小范围区域,往往找不到临时停车位,部分驾驶员倾向于忽视交通禁令标识,从而影响交通秩序。

3.3 不同区域的交通违法行为时空分布

为了更好地回答“何时在何地发生了什么”的问题,在单因素关联分析基础上,探究时空联合因素在交通违法行为中的综合影响也是必要的。交通违法行为中包含地址信息,但由于关联规则需要提取频繁集,带有完全一致地址的数据较少,且整体数据中地址数量较多,使用具体地址在全部数据中进行关联分析无法确保结果的有效性。本文将违法行为发生范围按广州市的行政区划分区,选取白云区、越秀区、番禺区、天河区、海珠区和荔湾区6个包含较多交通违法数据的区域,在每个区域内分别进行关联关系挖掘。为保证挖掘违法事件规则的有效性和现实意义,避免无关规则,将关联规则后继项限定为交通违法种类,即在某种条件下容易发生的违法行为类型。提取各区域中的关联规则后,提取前导项最小长度大于2的规则以保证影响因素的全面性,并在每个区域中按置信度由高到低的顺序展示(见表6)。
表6 交通违法事件与全部因素之间的关联规则挖掘

Tab.6 Correlation rule mining between traffic violations and all factors

区域 前导项 后继项 支持度 置信度 提升度
番禺 工作日,傍晚,番禺区洛浦街吉祥北街 机动车逆向行驶 0.03 0.91 1.54
工作日,小车,番禺区番禺大道—龙美高架桥甘棠村段 超速20%以上未达到50% 0.03 0.82 1.03
海珠 工作日,海珠江湾桥上桥位 违反禁止标线指示 0.02 0.85 1.21
工作日,滨江中路海印桥上桥位 违反禁止标线指示 0.02 0.85 1.32
工作日,午夜,新滘东路赤沙村路段 超速20%以上未达到50% 0.02 0.83 1.02
荔湾 工作日,傍晚,小车,广州市荔湾区花地大道—花地大道南环交界路 违反禁止标线指示 0.03 0.88 1.66
小车,增南路—增南路芳村车管分所门口 违反禁令标志 0.02 0.83 1.17
工作日,傍晚,珠江隧道西孔—珠江隧道黄沙铁路南 违反禁止标线指示 0.02 0.83 1.09
越秀 工作日,上午,小车,东风东路先烈南路口 违反禁止标线指示 0.03 0.89 1.52
工作日,上午,越秀区陵园西路—陵园西路路段 违反禁令标志 0.03 0.85 1.42
天河 工作日,傍晚,小车,珠江东路—利通广场 违反禁令标志 0.03 0.84 1.36
工作日,傍晚,小车,华夏路—华利路 违反禁令标志 0.03 0.84 1.54
工作日,小车,天河北天河软件园路段 违反禁止标线指示 0.02 0.81 1.02
白云 工作日,傍晚,小车,广州大道北—南方医院路口 违反禁令标志 0.03 0.96 1.03
小车,内环路B线增槎路出口 违反禁止标线指示 0.02 0.91 1.21
结合实际地理位置情况可以发现,违反禁止标线指示的行为多发生在路况复杂处,如高架桥上下位、高速汇合路段以及商业聚集区等。违反禁令标志的违法行为则容易出现在限速限行较多的城市混合功能区,如商业区和公共设施附近。超速行为多发生在车流量较小的长直路段或夜间时段。
图4是3个典型交通违法行为实际路况图片,分别为常发生违反标线指示行为的海珠滨江中路海印桥上桥位、常发生违反禁令标志行为的越秀区陵园西路和常见超速行为的番禺区龙美高架桥路段,具体位置见图4红圈。
图4 常见交通违法行为发生位置

Fig.4 Where common traffic violations occur

3.4 城市功能区与交通违法行为的关联研究

POI兴趣点分布反映城市功能区的分布,对城市规划与发展、交通出行有重要影响。一般而言,POI点密集区域往往是交通违法行为的高发区。
通过对POI的核密度可视化(图5),可以发现其与交通违法行为的空间分布较为相似。选择中小学校、火车站、公交站、大型商场、大型景点、文体设施等6种POI点进行关联分析。通过设置POI点缓冲区与交通违法点相交,得到结果(表7)。
图5 POI分布与交通违法行为分布

Fig.5 POI distribution and traffic offense distribution

表7 交通违法与POI特征关联规则挖掘

Tab.7 Mining of traffic violations and POI feature correlation rules

序号 前导项 后继项 支持度 置信度 提升度
1 傍晚,工作日,小车,违反禁令标志 中小学校 0.02 0.83 1.34
2 傍晚,小车,违反禁止标线指示 公交站 0.03 0.79 1.13
3 小车,驾驶机动车违反交通灯通行 中小学校 0.02 0.77 1.05
4 非工作日,小车,机动车临时停车 景点 0.01 0.74 1.11
5 中午,小车,机动车临时停车 火车站 0.01 0.72 1.06
6 上午,小车,违反禁止标线指示 文化设施 0.01 0.71 1.11
表7可以看出,中小学校附近是机动车违反禁令标志和交通灯通行2种违法行为的高发区,尤其在下午时段。这与家长接送孩子放学的需求一致。在景点和火车站附近,非工作日和中午时段机动车临时停车的情况较为常见,说明这些地方的停车需求较高。公交站和文化设施附近,机动车违反禁止标线的情况较为普遍,反映这些区域的道路标线复杂,驾驶员可能不熟悉路况,容易出现违规行为。

4 总结与展望

本文以广州市2015年交通违法数据为研究案例,通过数据清洗和编码,提取出交通违法行为中的时间信息、空间信息和各类属性信息,基于FP-Growth方法提取数据中的高置信度关联关系,并从多视角进一步分析,从年龄、性别、气象条件、驾驶经验入手进行了交通事故的关联性分析。通过关联规则挖掘,整合多种因素进行综合分析,揭示了特定时空条件下的交通违法行为模式。
研究结果表明,大型车辆在车道使用和环保检验标志相关规定上的违法行为较多,因此应加强对大型车辆占道行为的治理。此外,外来车辆对当地交通规则不熟悉,容易导致违法行为,建议加强交通信息的主动发布工作。基于分区域关联结果,分析了具体位置的多发交通违法行为影响因素,应为定点定时交通治理提供了依据。将POI数据引入关联分析后,发现车站、学校等设施附近的违法行为较为集中,提出应增加景点和车站附近的停车位供给能力,并关注中小学校附近的不文明驾驶行为。
本文研究存在一定的局限性。首先,传统关联规则一般适用于离散型数据,而时间和空间数据具有连续性,需要进行区间划分,这限制了数据信息的利用;其次,关联规则挖掘的支持度和置信度参数设定需基于多次测试和经验值,缺乏理论依据;未来研究可考虑改进关联分析方法,进一步优化时间和空间数据的处理,引入更加客观高效的参数设置机制,以提高分析结果的准确性。
1
Das S, Dutta A, Avelar R, et al. Supervised association rules mining on pedestrian crashes in urban areas: identifying patterns for appropriate countermeasures[J]. International Journal of Urban Sciences, 2019,23(1):30-48.

2
罗慧, 李良序, 胡胜, 等.公路交通事故与气象条件关系及其气象预警模型[J].应用气象学报, 2007(3):350-357.

3
Chen T, Zhang C, Xu L. Factor analysis of fatal road traffic crashes with massive casualties in China[J]. Advances in Mechanical Engineering, 2016,8(4):6-7.

4
Pulugurtha S S, Sambhara V R. Pedestrian crash estimation models for signalized intersections[J]. Accident Analysis & Prevention, 2011,43(1):439-446.

5
尚威, 尚宁, 覃明贵, 等.交通事故的多维关联规则分析[J].计算机应用与软件, 2006(2):40-42, 65.

6
魏玉晓, 李宗平, 李宵寅.基于加权关联规则的交通事故分析[J].交通信息与安全, 2009,27(1):94-97.

7
贾熹滨, 叶颖婕, 陈军成.基于关联规则的交通事故影响因素的挖掘[J].计算机科学, 2018,45(S1):447-452.

8
Montella A. Identifying crash contributory factors at urban roundabouts and using association rules to explore their relationships to different crash types[J]. Accident Analysis & Prevention, 2011,43(4):1451-1463.

9
Weng J, Zhu J Z, Yan X, et al. Investigation of work zone crash casualty patterns using association rules[J]. Accident Analysis & Prevention, 2016,92(7):43-52.

10
Abou‐Raya S, ElMeguid L A. Road traffic accidents and the elderly[J]. Geriatrics & gerontology international, 2009,9(3):290-297.

11
裴玉龙, 马骥.道路交通事故道路条件成因分析及预防对策研究[J].中国公路学报, 2003(4):78-83.

12
孟祥海, 郑来, 秦观明.基于模糊逻辑的交通事故预测及影响因素分析[J].交通运输系统工程与信息, 2009,9(2):87-92.

13
孔令铮.交通事故致因中的人为因素分析[J].中国安全科学学报, 2013,23(1):28-34.

14
Agrawal R, Imieliński T, Swami A. Mining association rules between sets of items in large databases[C]// Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 1993: 207-216.

文章导航

/