透徹影像王書浩:三易其轍與功不唐捐

收藏待读

透徹影像王書浩:三易其轍與功不唐捐

作為透徹影像的技術總監,王書浩的經歷可謂「不走尋常路」:本科的背景是量子物理,博士生階段從「分佈式系統的性能優化」方向入門計算機科學;他在深度學習一途上的嘗試也非常多元化:醫療影像、計算機圍棋、用戶行為分析 …… 均有涉獵,亦有建樹。

最終,他選擇了 AI 醫療,選擇了「病理」這個醫療診斷的「金標準」,醫療圖像中極為困難的領域。然而我們回顧他的進程,卻發現這一條不尋常的路徑上看似獨立的每一步路,如今卻都成為了落地 AI + 病理影像過程里的「功不唐捐」。

從物理到病理:那些更加接近客觀真相的選項

「我本科是學物理的,2012 年博士入學的時候也是去了清華的物理系,研究方向是從數學角度找到一個『量子關聯』的合理度量,為量子計算提供一個基礎。」

而引導這位物理學研究者轉向 AI 領域的第一步,是大數據。「我想做一些更能夠貼近人的生活、更加社會化的一些研究,能夠親自看到我的研究改變一些東西。」

他先是創建了一個名為 Quantum Computer Club 的興趣團體,讓物理系的 、數學系的、自動化系的學生一起去思考與討論未來量子計算的可能用途。2014 年,他還與物理系的導師一起發表了國內第一篇量子計算與大數據關聯的綜述文章,探討如何用統計規律或者深度學習模擬去解決量子的問題,以及如何用量子計算的思想解決大數據問題。

雖然一步步走向社會化與實用,但「物理思維」仍然影響着王書浩的許多重大選擇:「在面對選擇的時候我會傾向於那個更加接近客觀真相的選項。這是我為什麼選擇了病理。」

病理是把人體可能發生病變的組織製成切片,通過在顯微鏡下觀察來進行一些判斷。

「病理更加接近診斷。」王書浩這樣概括道。換言之,在「發現癥狀」到「確診疾病」的這條路線上,影像會早早出現,而病理通常是腫瘤患者確診前的最後一道關卡。病理在醫學中被稱為「金標準」:包括癌症和一些腫瘤的最終治療方案都需要受病理的報告結果指導,而病理科醫生也被稱為「醫生的醫生」。

然而想讓 AI 幫助病理「減負」,仍然遠比其他圖像問題困難,因為病理科甚至是一個尚未實現數字化的學科。

「在 301,我們仍然保留着從 1953 年建院至今的所有病理切片。」301 醫院病理科副主任宋志剛介紹道。如今放射科室已經被俗稱為「GPS」(GE, Phillips, Siemens)的巨頭設備公司們帶入數字化時代,許多醫生們已經習慣了在電腦上閱讀 CT 與 MRI 影像,而出於成本、保存難易度等考量,病理科醫生的工作界面數十年如一日,仍然是光學顯微鏡+切片。在病理信息中心裏,醫生們在顯微鏡下觀察病理切片,然後在電腦上撰寫病理報告。每天,他們要將這個過程要重複 200 到 300 次,加班乃至通宵都是日常生活的一部分。

透徹影像王書浩:三易其轍與功不唐捐

圖:301 病理信息中心

因此,AI 輔助病理診療系統的建立,要從把實體切片掃描為數字化文件開始。然而醫生與算法工程師們對於 AI 輔助病理診療的必要性堅信不疑:「病理醫生的短缺程度是超乎想像的。」宋志剛說,2014 年,衛生部要求「每 100 張病床至少配備一個病理醫生」,而擁有近 800 萬張床位的我國,目前僅有 1 萬名病理醫生。而從政策的角度,仍然有類似「兩癌篩查」的需求源源不斷地出現,無法用人力方法解決的客觀供需矛盾,是 AI 病理的出發點。

那麼 AI 能幫助病理醫生做些什麼?

在宋志剛的辦公桌上里,除了顯微鏡與切片、開着未完成病理報告的顯示器之外,還有一台額外的顯示器:屏幕上是一張放大後的數字病理切片,在圖片之上,透徹影像開發的 Thorough Insights 軟件用紅色的曲線沿着細胞的紋理勾勒出數塊潛在的癌變區域,給出相應的病症預測和病變區域的面積。

透徹影像王書浩:三易其轍與功不唐捐

宋志剛用顯微鏡觀察了一會兒切片,又觀察了軟件分割出的曲線,確認軟件的分割結果。「醫生用顯微鏡的低倍鏡看全貌,高倍鏡看細節。對於在低倍鏡下不確定的疑似病例,現在醫生需要切換到高倍鏡,逐塊地把所有區域都觀察一遍。如果系統把懷疑有癌的部分提前圈出來,醫生相當於有針對性地進行細節檢查,效率的提高很顯著。」

輔助診斷系統不僅能夠用於疑似病例的定位和確認:在篩查中,絕大部分的實例都是陰性的。以 2016 年北京市的兩癌篩查數據為例,26 萬人中檢出有癌變者 700 餘人,陰性比例超過 99.7%。如果機器可以在醫生閱片時給出預測結果,篩查效率將顯著提升。

從「深度學習的能力」到「深度學習的能力邊界」

在創辦透徹影像之前,王書浩也曾經在金融科技公司任職,主要通過研究用戶的行為來分析用戶是否為欺詐用戶。

「我們在探索深度學習的能力。」當時深度學習還遠沒有今日為人熟知,人們只是定性地了解,當數據規模到達一定程度後,神經網絡的能力會超過原有的決策樹等方法。「後來我們在使用大量數據進行驗證後發現,大概在幾千萬這個量級上,深度學習的效果開始遠遠超過機器學習模型。」千萬量級的數據是深度學習模型效果超越 xgboost、隨機森林等方法的充分條件。

而在透徹影像,他帶着團隊往前又走了一步,「我們在探索深度學習的能力極限。」

探索的過程從模型選型階段就開始了。「通常,研究人員把病理問題當做一個分類問題來解決,或者說使用的工具是分類(classification)模型,但是我們選擇用分割(segmentation)的路徑,並且實驗效果也證明,我們選擇了一條正確的技術路徑。」王書浩說。

在計算機視覺領域裏,相比於自然圖像,「大」是醫療領域內圖像的共同特點。而相比於 X 光與 CT 這樣的影像圖像,「大」仍然是病理圖像的顯著特點。一張數字 X 光片大約由 2000 x 2000 個像素組成,一張 CT 大約由 512 x 512 x 截面數(大約 100-200)個像素組成,這樣的圖像保存後大小仍然在 MB 級別。而病理圖像的大小在 120k x 200k 量級,通用計算機幾乎無法打開,更別提在此基礎上進行大規模的矩陣運算了。

因此,之前業界的常用作法,是把病理影像切成和普通圖像差不多大的小塊,然後對每一個小塊做「是否癌變」的分類預測,然後再將分類結果組合起來,看似對整張圖像做了「分割」。這種選型有一定的理由支撐:例如病理醫生的主要工作是在切片中「找到癌」,至於癌細胞在病理圖片上的哪個位置,看似並沒有那麼重要,在這樣的前提下,選擇用技術上更成熟的分類逼近難度係數更大的分割,是一個看似合理的選擇。

但透徹的技術團隊不這樣認為。「如果模型不能準確地把癌變部位圈出來,那麼它對癌的理解一定是不透徹的。區別病變與非病變只是第一步,是遠遠不夠的。我們選擇分割模型也是為下一步打基礎,接下來我們還有區分不同類型的癌變等等其他任務,都需要模型對癌更深入的理解。」

透徹影像王書浩:三易其轍與功不唐捐

圖:熱力圖為模型預測的癌變像素及其概率,紅色折線為醫生標註

在分割模型構建過程中空洞卷積(dilated convolution)被大量使用。空洞卷積在維持輸入輸出大小的同時為分割保存了足夠的信息。「原來用普通卷積層層壓縮特徵維度的方式是為了最後一步的 softmax 分類,並不完全適用於分割問題:分割問題需要給每一個像素點打標籤,換言之需要對每一個像素點有感知,因此空洞卷積是一個合適的選擇。」

除此之外,分割模型不要求訓練與部署時輸入大小一致的特點還有助於性能優化:「分割模型的另外一個好處是不受訓練樣本的大小的約束,這樣做的另一個好處是把 GPU 的性能發揮到極致。我們可以把它的顯存用滿。」

想要搭建一個部位的分割模型,301 的病理醫生使用透徹的 ThoroughWisdom 標註了數千張 400 倍放大的數字切片,每張切片在去掉背景等無效區域後,可以得到數千到數萬個樣本(Patch)。在沒有進行數據擴增的前提下,訓練集規模就可以達到千萬量級。

王書浩着重強調了「數據擴增必須符合醫學邏輯」。對圖像進行左右和上下的翻轉是合理的:因為在製片和觀察的時候,方向不會影響醫生的判斷;圖像顏色的任意變化就是不合理的:因為用於切片染色的 HE 染色劑就是紫色的,切片幾乎不會變成綠色。

最終訓練好的模型擁有相當可觀的準確率,宋志剛的評價是,「效果不錯。軟件和報告系統聯動後,這邊打開要寫的報告,那邊自動打開病理圖像,可能就不用再拿實體切片了。」

探索了病理圖像的分割之後,團隊打算挑戰的下一個極限問題是癌症的分型。僅僅乳腺癌的分型就有上百種,這似乎超出了現有的單純基於圖像的分割模型的能力範圍。因此透徹希望構建一個「全腦智能」。「AlphaGo 就是典型的全腦智能,既有策略價值網絡,又有一個邏輯推理或檢索的過程。」而一個醫療影像的全腦智能也應當如此。「即使堆再多的數據訓練機器的感覺,其『感覺』也是有極限的,我們希望換一種思路,提取每一種分型的特徵,構建一個知識庫。」

憑「感覺」的右腦和憑「邏輯」的左腦合作,共同找出最有可能的分型。

「我們的系統從第一天起就是分佈式的」

在成為一名 AI 工程師之前,王書浩首先接觸到的計算機領域是系統架構,他也曾經扮演過系統工程師的角色,致力於幫助大公司的數據中心在給定空間與電力限制下找出最優的機架配置方案,以及設計了能夠基於功率進行任務調度的算法。

「做系統的人有一個毛病,就是凡事起碼要考慮到三步之後 :所有的東西要有三個備份,以及從第一天起就為幾年後的分佈式集群做準備。」

透徹用於推理運算的機器里,每台機器有多 個 GPU,每個 GPU 作為一個運算節點,由調度器統一負責任務分配。在現有的機器配置下,完成一張病理圖像的預測需要不到 20 秒,單台服務器能夠支撐 301 每天的全部分析需求。

透徹影像王書浩:三易其轍與功不唐捐

圖:透徹的分佈式微服務架構

在上線無虞的情況下,透徹仍然在同步測試分佈式的集群。「我們開發的所有的系統都採用微服務架構,從 AI 分析系統到後端存儲,自然都是分佈式的:支持單機和分佈式集群的部署。」

在王書浩看來,分佈式是遲早要做的事情:「單機模式存儲量受限、運算速度受限,隨着業務的拓展,分佈式是唯一的選擇,所以從第一天起就要打好基礎。」

除了分佈式系統之外,透徹還有另一樣「從第一天就開始做」,而且花了大力氣的東西:給醫生用的標註系統 ThoroughWisdom。「在 301 的醫生開始大規模標註前,我們花了半年時間研發了一個非常好用的標註系統。」醫生可以拿着 Apple Pencil 在 iPad 上完成標註工作,可以不用一口氣圈出整塊病變區域,分成幾筆,甚至幾百筆都沒有問題,公司有專門的專利算法解決如何把一堆零碎的線段變成一個線框的問題。

透徹影像王書浩:三易其轍與功不唐捐

圖:左圖為醫生標註,右圖為經過算法調整的訓練用標註

對於現在的深度學習模型來說,在開始訓練之前先組織人力進行大量數據標註工作已經是常規操作了,但是在標註數據前先投入如此大量精力研發標註工具則不常見。對於王書浩來說,這又是一個「兵馬未動,糧草先行」的故事:「我們做的不是標註工具,而是未來的產品。」

「我們的定位是做一家在技術上和商業上都想得很長遠的公司」,透徹影像從 logo 到公司宣傳品都有相同的淺紫色主色調,也就是病理切片製片時所用的 HE 染色劑的顏色,「我們不會走一步看一步,活不下去了再換個方向。」

給了他們這樣信心的除了核心模型本身的效果,還有團隊「從前端到最底層硬件的一體化定製能力」。「從 js 前端與 iOS 代碼,到 AI 系統,到存儲,都是一體的。」

既創造價值,又回報社會

從物理到分佈式系統,從分佈式系統到 AI,雖然最終每一步路都成為了「功不唐捐」,但在面臨選擇 的時候,即使堅信自己的選擇是正確的,壓力也仍然不會缺席。

「最開始也面臨很大的挑戰」,如今的王書浩可以當做逸事一樣談起當年,「有時候凌晨四點醒了睡不着,在那邊寫代碼。」

但如今他對自己的狀態非常滿意,「很多人說希望事業成功以後去做慈善,去改變人的生活。其實我找到了一件把這兩件事情放在一起做的方式,而這其實是最大的幸福。」

原文 : 機器之心

相關閱讀

免责声明:本文内容来源于機器之心,已注明原文出处和链接,文章观点不代表立场,如若侵犯到您的权益,或涉不实谣言,敬请向我们提出检举。