基于智能手机的交通方式识别的研究
随着移动互联网的普及,各种有关移动互联网的应用蕴含着巨大的商机,交通方式的自动判别显而易见在交通规划领域和LBS(基于位置的服务)领域拥有着广阔的应用价值。
1 交通方式识别关键技术研究
1.1 交通方式识别概述
模式是客观事物活动的方式,它包括客观事物本身,也包括有客观事物在时间和空间分布的信息。时间万物都有其独特性,这种独特性可用三个方面来理解,即可观察性、可区分性和相似性。
在AI(人工智能)领域,模式识别已经是一个重要的分支,和人类自身的识别系统相比,计算机的模式识别,其优势在于计算机拥有极强的计算能力,他可以储存数量极大的样本,并通过对这些样本的分析来提取特征,而完成这些工作,计算机是高效的。如图1所示为计算机模式识别系统的五个基本组成单元。
如图1所示,现阶段的模式识别系统一般都是由五个基本单元来组成。
(1)数据获取单元;(2)预处理单元;(3)特征提取和选择单元;(4)分类器设计单元;(5)决策单元。
1.2 定位技术研究
1.2.1 基站定位技术
在各种定位技术中,基站定位技术是最早开始应用的,基站定位目前采用的主要技术是COO(Cell of Origin)技术,COO技术的基本原理是,在移动终端登录到网络以后会上报自己的小区ID,移动网络会据此估算用户的当前位置,如图2所示。
1.2.2 GPS定位技术
GPS由卫星、地面监控系统和移动终端三个部分组成。卫星提供精密的时间标准并提供定位信息,地面监控系统主要是对卫星工作状态和运行轨道的监控。
1.2.3 A-GPS定位技术
A-GPS定位技术,即辅助GPS定位技术,它是一种对GPS定位方法的改进,A-GPS定位技术仍然无法解决数据缺失和数据漂移问题,但由于有A-GPS服务器的存在,它可以起到很多辅助的作用。
1.3 典型识别算法研究
在数据挖掘、机器学习和模式识别等领域中,都需要分类算法,分类算法可以分为三个步骤:(1)对已知类别训练集进行分析;(2)生成分类规则;(3)通过规则预测新数据的类别。
2 基于智能手机功能的交通方式识别研究
2.1 数据采集
按照现阶段智能手机的流行配置,本系统要求智能手机含有GPS模块、加速度传感器、陀螺仪、声音传感器和SIM卡。因为现在一般的智能手机都能够满足这个要求,本文就不再赘述手机选型。但是采样频率还是需要预先设定:GPS数据每秒采样1次,加速度传感器和陀螺仪的采样频率为32Hz,声音传感器每秒采样30次。
2.2 特征提取
特征量主要包括时域上的特征量,如均值、过均值率、标准差、中位数、最大值与最小值的差、个数等,频域上的特征量包括和、方差两类。
(1)与速度相关的特征量;(2)与加速度相关的特征量;(3)与声音相关的特征量;(4)与交通站点相关的特征量。
2.3 基于改进随机森林算法的模式识别
获取所有的特征之后,随机森林算法过程可做如下描述:(1)输入的数据即样本集,每个样本包含有若干个特征属性和一个类别属性。(2)训练样本集由Bagging方法随机抽取,最后形成的是由N个样本组成的训练样本集。(3)从样本的特征属性中抽取部分属性作为分裂属性。(4)以上步骤重复n次,最后形成由n棵决策树构成的森林,最后再进行汇总排序。
2.4 特征量有效性的验证
特征量有效性的验证即比较使用和不使用的情况下F值的大小就可以了。
2.4.1 陀螺仪
如图3所示为陀螺仪有效性验证结果,验证结果表明,在不使用陀螺仪的情况下, 8种类别的F值均有下降,这也说明,陀螺仪的引入对于交通方式识别起到了一定的作用。
2.4.2 声音传感器
如图4所示为声音传感器有效性验证结果,验证结果表明,相比较陀螺仪,声音传感器的引入对于交通方式识别起到的作用更大。
2.5 模型简化
(1)特征重要性排序;(2)模型简化结果。
模型简化包含两个部分,一个是特征集的简化,那么在特征集简化之后,就可以进行模型本身的简化。
3 总结与展望
交通方式识别最重要的就在于识别的精度以及易实施性,在易实施性方面智能手机拥有先天的优势,比如利用手机的GPS模块和加速度传感器进行交通方式识别的研究论述就有不少,但是识别的精度仍然不够,正是基于此,本文期望能够在以下两个方面对交通方式识别进行更加深入的研究:(1)引入多种数据来源,解决交通方式识别中数据来源单一的问题,并研究在新的数据来源被引入后,对识别准确率的影响。(2)研究不同交通方式识别算法对识别准确率的影响,特别是比较随机森林算法和支持向量机算法在性能上的异同。