這次新冠病毒COVID-19疫情席捲全球,直到4月1日全球確診人數已達84萬人,其所造成的巨大影響是當初料想不到的,在台灣防疫工作能備受肯定,其中大數據擔負了關鍵角色。因此,本文將簡單介紹目前人工智慧大數據應用在COVID-19疫情探討的情形。
一、人工智慧(AI)與大數據(Big Data)的發展與應用情形
隨著資通訊設備系統的進步,大量的數據不斷的產生並被儲存,特別是伴隨行動通訊5G時代的來臨將會有更多的數據被產生。著名的Gartner產業分析機構的分析師 Doug Laney 在 2001 年給出了廣為人知的大數據3Vs定義,分別代表資料量大 Volume、資料傳輸速度及時快速 Velocity、資料類型多樣化 Variety。此後,便有人在 3Vs 之外陸續提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity(資料真實性)最被普遍認同。在大數據時代,如何利用這些數據挖掘出其中隱藏的訊息並應用在各種領域,這是目前最熱門的發展趨勢。而資料探勘(Data Mining)就是在資料中挖掘出其中有用訊息的技術。
資料探勘技術涵蓋的種類很多,現在當紅的人工智慧 (Artificial Intelligence,AI)就是其中的要角,特別是deep learning (深度學習)幾乎是現今人工智慧的代名詞(參考下圖)。目前人工智慧在很多的應用領域得到很好的發展,例如無人駕駛、物聯網、商業營運、智慧醫療、金融科技……就像這次新冠肺炎疫情的口罩供應也有人利用大數據製作了口罩地圖方便民眾查訊附近的口罩供應地點與數量:https://mask.polstargps.com/
圖片來源:期刊HealthManagement, Volume 18 - Issue 6, 2018之Imaging applications of artificial intelligence
二、COVID-19 資料集/大數據
要研究新冠病毒並建立預測模型首先要收集相關的資料/大數據。Google最近啟動了一項計畫“COVID-19 Public Dataset Program” 免費提供與COVID-19相關的資料集給研究與教育用途直到Sept 15,2020:https://is.gd/6sv5l5 或 https://is.gd/S47uAO。而著名的權威醫學期刊 The Lancet也免費提供所有刊登在其期刊中與COVID-19相關的文章:https://www.thelancet.com/coronavirus。這些的目的都是希望藉此資料能加速大家對於新冠病毒的研究與交流,建立良好的預測模型並找到擊敗它的解方。
三、COVID-19資料探勘與人工智慧模型
對於COVID-19的研究探討是目前最重要與具急迫性的工作,文獻[6]有概略性的說明,以下說明COVID-19的資料探勘與人工智慧模型預測。
(一)資料視覺化(Data Visualization):
在資料的表達上大家都知道,以圖表的方式呈現強於單純冷冰冰的數字,這原理牽扯到我們大腦的結構,就像在記憶學方法中也有所謂的圖像式記憶法。
資料視覺化就是一門將資料以適當的圖表或動畫呈現的學問。簡單的技術如常見的統計圖表,進階的技術如熱圖(heat map):將某事件(例如犯罪事件)根據發生的頻率多寡在地圖上以不同顏色呈現,例如以下的《台北市住宅竊盜強度圖》報導“「犯罪熱點」地圖化 一眼看出竊盜熱區”:https://is.gd/Pxt42f。又如文字雲(Word Cloud):在文字資料中(一篇文章、一本書)將一些關鍵字收集並統計其出現的次數,當出現的次數越多就以較大的字體描繪出來(參考https://is.gd/WitB8G),這樣就可以以視覺化的方式清楚呈現出一篇文字內容中的主題。以下網站可以自動產生文字雲,可以將自己的文字內容貼上去試試看:https://www.wordclouds.com/。
對於這次的新冠病毒,有一些機構製作了不錯的dashboard可以以視覺化的方式來呈現目前疫情發展的情形:
◆ CSSE at Johns Hopkins University (JHU): https://is.gd/MRo5ns 以及 [1]
◆ https://vac-lshtm.shinyapps.io/ncov_tracker/
(二)社群網路(Social Network)分析:
社群網路是一種由 “關係” 所建構出的資料探勘技術。它是由所謂的 “節點(node)” 和 “邊(edge)” 所組成的圖型結構(graph)。例如我們可以以朋友關係來建構人際關係之社群網路,其中的節點就是每個個體,若兩個個體之間是朋友就會有一個邊相連。這次的新冠病毒疫情傳播,若能收集政府調查的疫情傳播路徑資料,例如 A傳染給B,此時就可以連一個從節點A到節點B的有向邊(directed edge),藉此我們就可以建立一個COVID-19的社群網路圖。以下網址有藉由新加坡的資料所建立的COVID-19社群網路圖https://www.againstcovid19.com/singapore/cases
社群網路分析的應用廣泛,例如:協助金融保險業偵測詐騙行為(參考文獻[2,3]);將企業的顧客藉由不同的屬性(如購買的金額)來定義關係的遠近並藉此分成不同的群,之後再根據不同群的顧客特性做客製化的精準行銷。
而在社群網路分析中有一個重要的分析技術就是節點重要性分析。衡量節點重要性的方式有好幾種,最常見的degree就是一個節點所具有的邊的個數。在朋友關係中就是指一個人的朋友個數;在COVID-19疫情傳播中就是一個人的感染源與感染別人的個數。藉著節點degree的計算就可以找出具有最多接觸傳播路徑的個體,藉此就可以找出超級傳播者(參考[4]),這對於疫情的預防與控制將有很大的幫助。
而在更重要的疫情傳播路徑的預測上,在社群網路架構中有一些既有的模型可以使用(例如文獻[4]中所述的“susceptible-infection-recovered model”)。
在社群網路的資料視覺化方面,可以再藉由日期資料以及社群網路的資料視覺化工具(例如Gephi, 參考[5]),呈現出一種動態變化的效果。
(三)人工智慧模型預測:
人工智慧AI是現在的顯學,其應用已經滲透到各種領域之中。AI的特性是它完全是以資料為導向,藉著資料的訓練找出各種現象或類別的內在抽象特質,藉此就能進行非常精準的預測。
在COVID-19傳播路徑預測方面,雖然在(二)中有提到可以利用社群網路的諸如“susceptible-infection-recovered model” 來進行,但是這種模型不是資料導向的,而是由一些已知的原理或經驗法則事先定義傳播的規則,之後再由各種不同的實際情況中進行參數的修正與確認。
利用人工智慧進行COVID-19探討正如火如荼地進行當中,特別是利用模擬大腦神經網路結構運作的深度學習架構 (deep learning)。在人工智慧深度學習的各種模型當中,有特別適用於這種隨時間而變化的資料(時間序列)的模型,例如RNN、LSTM (參考https://is.gd/luQjXq https://is.gd/6BW9hi),因此很有機會建立出不錯的AI預測模型。
期待藉著大家分享珍貴的資料,並藉由人工智慧強大的功能與潛力,能加速我們尋找解方的進程,早日打敗COVID-19這可怕的敵人。
文 / 資料科學暨大數據分析與應用學系 羅主斌主任
出版 / 2020年04月01日
參考資料
1. Dong E. Du H. Gardner L. An interactive web-based dashboard to track COVID-19 in real time. Lancet Infect Dis. 2020 Feb 19.
2. Ted London. 2018 MARCH 16. Identifying Tax Fraud through Social Network Analysis. https://www.fico.com/blogs/identifying-tax-fraud-through-social-network-analysis
3. IBM. 2017. Preventing fraud with identity and social network analysis-A guide for bank executives. https://www.ibm.com/downloads/cas/D07GK76O
4. Christley RM. Pinchbeck GL. Bowers RG. Clancy D. French NP. Bennett R. Turner J. 2005 Nov 15. Infection in social networks : using network analysis to identify high-risk individuals. Am J Epidemiol. 162(10): 1024-31.
5.GEPHI–Introduction to Network Analysis and Visualization:
http://www.martingrandjean.ch/gephi-introduction/
6. Albert Nombres and Yam Guan Goh. Advanced Analytics for Coronavirus–Trends, Patterns, Predictions, March 16. 2020.https://www.teradata.com/Blogs/Advanced-Analytics-for-Coronavirus-Trends-Patterns-Predictions