在舊金山舉行的KDD2016學(xué)術(shù)會議上,羅格斯大學(xué)的熊輝等學(xué)者向大家報告了他們的研究論文 Catch Me If You Can:Detecting Pickpocket Suspects from Large-Scale Transit Records 。論文報道在2014年的前9個月就有350個扒手在地鐵交通系統(tǒng)上被抓,490個扒手在公交車上被抓。因此,他們對北京智能公交一卡通數(shù)據(jù)的分析研究,根據(jù)異常交通記錄分析來抓小偷。研究中共使用了北京市2014年4-6月三個月間600萬乘客的約16億智能公交一卡通數(shù)據(jù)記錄。如下圖所示,熊輝等將北京劃分為多個小的局部的功能區(qū)塊,并分析了896條地鐵線經(jīng)過的44524個公交車站和18條地鐵線經(jīng)過的320個地鐵站的數(shù)據(jù)。首先,從每個人的日常出現(xiàn)記錄中提取特征;然后,進行無監(jiān)督的異常行人檢測和有監(jiān)督的模式分類,從而挖掘出異常的出行軌跡。
挖掘結(jié)果分析
在談到 根據(jù)異常交通記錄分析抓小偷 方法的基本原理時,熊輝進一步解釋,通過數(shù)據(jù)分析,可以看出很多人從熱點區(qū)域A,到熱點區(qū)域B的交通軌跡,對這些軌跡觀察后,可以看到絕大多數(shù)的行人會選擇最優(yōu)的交通方式,比如,最短時間、距離,或者最少的換乘。但是,一個行人(嫌疑人)選擇的交通路線為A->C->D->B。
熊輝認為, A->C->D->B 這是一種異常的交通方式,對上述異常行為需要進一步地仔細分析,如果該人的異常行為足夠多,那么他很可能是一名扒手。
熊輝公布了他們的研究結(jié)果,如下表所示,利用TS-SVM算法,可以達到92.7%的召回率(即能夠正確地識別出92.7%的小偷),但是遺憾的是他們的精確度有點低(也就是說算法的虛警率較高)。
另外,論文還給出了工作日早上8:00-11:00的四種出行模型,如下圖所示。
(a)正常的出行者,可以看出他們主要在居住地、工作地、途經(jīng)區(qū)域活動。
(b)旅游者,可以看出他們頻繁地訪問圓明園、天安門、南鑼鼓巷等景點區(qū)域。
(c)購物者,可以看出他們主要訪問王府井、西單等購物區(qū)域。
(d)扒手,他們是一種流浪的模式,沒有清晰的目的地,他們頻繁地換乘,隨機的停留,經(jīng)常進行短途的出行。他們還(一段時間內(nèi))頻繁地訪問多種功能區(qū):交通樞紐(例如西直門)、購物區(qū)(例如王府井)、景點(例如鼓樓)。對于正常人而言,他們短時間內(nèi)只訪問一個/一種功能區(qū)。