在舊金山舉行的KDD2016學(xué)術(shù)會(huì)議上,羅格斯大學(xué)的熊輝等學(xué)者向大家報(bào)告了他們的研究論文 Catch Me If You Can:Detecting Pickpocket Suspects from Large-Scale Transit Records 。論文報(bào)道在2014年的前9個(gè)月就有350個(gè)扒手在地鐵交通系統(tǒng)上被抓,490個(gè)扒手在公交車上被抓。因此,他們對(duì)北京智能公交一卡通數(shù)據(jù)的分析研究,根據(jù)異常交通記錄分析來(lái)抓小偷。研究中共使用了北京市2014年4-6月三個(gè)月間600萬(wàn)乘客的約16億智能公交一卡通數(shù)據(jù)記錄。如下圖所示,熊輝等將北京劃分為多個(gè)小的局部的功能區(qū)塊,并分析了896條地鐵線經(jīng)過(guò)的44524個(gè)公交車站和18條地鐵線經(jīng)過(guò)的320個(gè)地鐵站的數(shù)據(jù)。首先,從每個(gè)人的日常出現(xiàn)記錄中提取特征;然后,進(jìn)行無(wú)監(jiān)督的異常行人檢測(cè)和有監(jiān)督的模式分類,從而挖掘出異常的出行軌跡。
挖掘結(jié)果分析
在談到 根據(jù)異常交通記錄分析抓小偷 方法的基本原理時(shí),熊輝進(jìn)一步解釋,通過(guò)數(shù)據(jù)分析,可以看出很多人從熱點(diǎn)區(qū)域A,到熱點(diǎn)區(qū)域B的交通軌跡,對(duì)這些軌跡觀察后,可以看到絕大多數(shù)的行人會(huì)選擇最優(yōu)的交通方式,比如,最短時(shí)間、距離,或者最少的換乘。但是,一個(gè)行人(嫌疑人)選擇的交通路線為A->C->D->B。
熊輝認(rèn)為, A->C->D->B 這是一種異常的交通方式,對(duì)上述異常行為需要進(jìn)一步地仔細(xì)分析,如果該人的異常行為足夠多,那么他很可能是一名扒手。
熊輝公布了他們的研究結(jié)果,如下表所示,利用TS-SVM算法,可以達(dá)到92.7%的召回率(即能夠正確地識(shí)別出92.7%的小偷),但是遺憾的是他們的精確度有點(diǎn)低(也就是說(shuō)算法的虛警率較高)。
另外,論文還給出了工作日早上8:00-11:00的四種出行模型,如下圖所示。
(a)正常的出行者,可以看出他們主要在居住地、工作地、途經(jīng)區(qū)域活動(dòng)。
(b)旅游者,可以看出他們頻繁地訪問(wèn)圓明園、天安門、南鑼鼓巷等景點(diǎn)區(qū)域。
(c)購(gòu)物者,可以看出他們主要訪問(wèn)王府井、西單等購(gòu)物區(qū)域。
(d)扒手,他們是一種流浪的模式,沒有清晰的目的地,他們頻繁地?fù)Q乘,隨機(jī)的停留,經(jīng)常進(jìn)行短途的出行。他們還(一段時(shí)間內(nèi))頻繁地訪問(wèn)多種功能區(qū):交通樞紐(例如西直門)、購(gòu)物區(qū)(例如王府井)、景點(diǎn)(例如鼓樓)。對(duì)于正常人而言,他們短時(shí)間內(nèi)只訪問(wèn)一個(gè)/一種功能區(qū)。