圖像識別技術在內容審核領域如何應用? 2016年09月26日08:52 來源:OFweek|
互聯(lián)網(wǎng)內容發(fā)展與圖像識別技術
早在2013年,全世界每天會上傳超過5億張圖片、上傳20萬小時長的視頻到互聯(lián)網(wǎng)。但是人們每天在Instagram分享近6000萬張照片,在Facebook分享近3億張——當然,還沒算上Snapchat、Google、Twitter等大量產(chǎn)圖的應用。據(jù)估計,一年后就可達到18億,所以在三年后的今天,這個數(shù)值必然遠超乎我們的想象。確實,人們相比過去,互聯(lián)網(wǎng)的數(shù)據(jù)每年都在式增長。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內產(chǎn)生的,等到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。
可以看得出,圖片和視頻內容已成為用戶表達、事件記錄分析中不可或缺的部分,在多方面發(fā)揮越來越重要的價值。但隨著互聯(lián)網(wǎng)的發(fā)展,內容安全成為互聯(lián)網(wǎng)不得不面臨的嚴峻挑戰(zhàn)。因此,面對互聯(lián)網(wǎng)的基礎需求——內容審核,圖像識別技術可以以此為契機,為互聯(lián)網(wǎng)圖像內容穩(wěn)定高效的發(fā)展保駕護航。
圖像識別技術與人工
說起圖像識別,我們知道,人的圖像識別能力是非常強大的。圖像距離的改變或圖像在感覺器官上作用位置的改變,都會造成圖像在視網(wǎng)膜上的大小和形狀的改變。即使在這種情況下,人們仍然可以認出他們過去知覺過的圖像。甚至圖像識別可以不受感覺通道的限制。例如,人眼可以看字,當別人在他手上寫字時,他也可以認出這個字。
而計算機圖像識別技術是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術。識別過程包括圖像預處理、圖像分割、特征提取和判斷匹配。
圖像識別技術是人工智能的一個重要領域。簡單來說,圖像識別就是計算機如何像人一樣讀懂圖片的內容。而圖像識別所研究的問題,是如何用計算機代替人類去自動處理大量的物理信息,解決人類所無法識別或者識別過于耗費資源的問題,從而很大程度上解放人類的勞動力。
圖像識別技術與內容審核技術的融合
因此,對于互聯(lián)網(wǎng)如此大量的圖像內容審核需求,圖像識別技術如何實現(xiàn)其中的融合與發(fā)展,從而解放大量每日做著簡單重復的工作的內容審核人員是非常值得我們期待。
傳統(tǒng)的圖像審核方式主要有三種:1、純人工審核:員工“三班倒”工作,人眼鑒別該圖片或視頻是否違規(guī);2、建立MD5數(shù)據(jù)庫:DNA是人類唯一的身份識別碼,而圖片、視頻的DNA無疑是MD5,網(wǎng)監(jiān)建立了存儲違規(guī)圖片、視頻的MD5數(shù)據(jù)庫,用戶上傳后自動分析MD5是否合法,則可避免涉黃內容重復分享。3、傳統(tǒng)的智能審核:如識別色情圖像,基本是通過圖片RGB值識別膚色比例、通過建模識別異常動作、敏感部位等。
但是三個審核方式都存在較大的漏洞,“三班倒”的人工容易導致審核效率低、誤判漏判多等主觀性問題;MD5則非常容易被篡改,在視頻中加入文字或者修改任意一幀就能實現(xiàn);傳統(tǒng)智能識別色情圖片準確率低、經(jīng)常誤報等。而且這三種審核方式對近兩年熱門的視頻直播審核需求更難以滿足。
但以圖普科技為代表的互聯(lián)網(wǎng)圖像內容審核,基于人工智能與圖像識別技術領域最新的算法:深度學習算法,通過模擬人腦神經(jīng)網(wǎng)絡,構建具有高層次表現(xiàn)力的模型,能夠對高復雜度數(shù)據(jù)形成良好的解讀。通過持續(xù)訓練、頻繁的迭代,圖普科技的圖像識別云平臺的內容審核的精確度達到99.5%,有效節(jié)省超過90%的人工復審工作。
目前,圖普科技基于圖像識別技術的主要的內容審核產(chǎn)品有:
色情識別
智能識別圖片和視頻內容,并對色情程度進行打分,方便用戶對涉黃內容進行快速處理,幫助用戶減少審核人力,有效降低涉黃風險。
暴恐識別
識別ISIS、東突等各類國家命令禁止的暴恐圖片及視頻內容。
時政敏感內容識別
建立敏感數(shù)據(jù)庫,提供定制化的,如識別國家領導人、政治運動場景等時政敏感性內容。
OCR
主要針對內容過濾,自動識別圖像內容是屬于正常、二維碼或者帶文字的廣告等圖片內容。
圖普科技通過圖像識別技術,將圖片與樣本庫中的海量樣本圖進行對比判斷,根據(jù)判斷返回圖片的狀態(tài),可判斷一張圖片是否為正常、色情、暴恐、廣告或其他的敏感內容等。
并且,圖普科技的圖像識別云平臺還可以幫助企業(yè)定制自己的圖像識別引擎,使用機器來代替人工對需要審核圖片和視頻進行鑒別。就無需聘請人工智能識別的專家組建研發(fā)團隊,通過接入API調用識別服務即可。這在極大程度上降低了互聯(lián)網(wǎng)行業(yè)應用圖像識別服務的門檻,從而為更多互聯(lián)網(wǎng)企業(yè)使用人工智能圖像識別技術提供了更大的機會。
內容審核對于互聯(lián)網(wǎng)圖像內容發(fā)展來說是一項艱巨而又關鍵的任務,是后續(xù)的圖像內容運營與發(fā)展的最基礎保障。圖普科技深知將要將圖像識別技術更好地融合到內容審核領域,實現(xiàn)更高的準確率,是非常值得重視的,因此,盡管在業(yè)界已經(jīng)擁有一定的知名度,圖普科技仍然深耕于內容審核與圖像識別技術領域,把圖像識別技術視為內容審核及互聯(lián)網(wǎng)圖像內容發(fā)展領域的未來,在將圖像識別技術更好地應用于具體的行業(yè)需求方面,為其他的人工智能應用提供了一條有價值的參考途徑。
責任編輯:鐘娟娟