暴力堆數據沒用!NLP 和語音技術突破難在哪?

收藏待读

暴力堆數據沒用!NLP 和語音技術突破難在哪?

如今,業內普遍認同 NLP 和語音技術的發展已經處在一個相對成熟的階段,大到會議現場出現 AI 同傳翻譯已屢見不鮮,小到每個人都可以在手機端體驗到智能輸入法帶來的便利,我們可以感覺到這兩項技術已經切實融入了日常生活中。

然而,雖然 NLP 和語音技術可以在一些應用場景中滿足人們的需求,但這兩種技術離完美解決實際問題、滿足複雜的場景需求還有很長一段距離,例如 AI 同傳仍然無法靈活應對複雜的會議現場狀況給出讓人滿意的翻譯結果。

雖然搜狗公司 AI 業務發展部成立僅有一年多時間,但在 NLP 和語音技術上已經有了很多產品落地和商業化的經驗。從技術和應用、商業化層面,搜狗對於 NLP 和語音是如何看待呢?AI 前線與搜狗 AI 業務負責人張博進行了交流,談了談他的看法。

更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front)

搜狗 2017 年成立了 AI 業務發展部,負責整合搜狗 AI 技術進行工程化研發、合作生態拓展,對接行業與場景輸出 AI 解決方案和技術、產品,主打政企領域的會議場景和展廳、導遊講解場景,提供智能語音轉寫會議解決方案、多語種 AI 同傳講解方案。

搜狗搜索和輸入法是搜狗公司的兩大拳頭產品,在搜索中結合智能問答、知識圖譜、機器翻譯等 NLP 技術做到智能匹配、精準推廣、英文搜索,在輸入法中加入語音輸入、拍照輸入、翻譯等功能,這些都是搜狗自主研發的 AI 技術在已有產品中的重要落地。

對於我們今天重點關注的 NLP 和語音技術,AI 前線通過張博了解到,搜狗的人工智能以語言為核心,在語音識別、語音合成、聲紋和唇語,以及知識圖譜、自然交互、問答、對話等方向都取得了突破且有很多落地,其中最大的一個落地產品就是搜狗輸入法,它集成了語音輸入功能、翻譯功能、字音翻譯、拍照輸入、拍照翻譯等功能,每天的語音輸入次數超過 4 億次。

NLP 和語音技術應用之難題

離線翻譯

雖然 NLP 和語音技術近年來已經進入偏成熟的階段,但仍有很多問題,需要逐步解決以推動行業發展。

例如很多公司應用 NLP 和語音技術的落地產品——翻譯機,雖然目前市面上的翻譯機能解決一定的場景需求,但仍面臨很多問題。比如,離線翻譯的需求其實很大,但各家翻譯機的離線翻譯質量並不高。這是為什麼呢?張博表示,離線翻譯其實確實不好做,它需要在沒有網絡的情況下進行翻譯,不能調用雲端的 API 接口接口,只能在終端實現所有計算。現在翻譯機使用的是與手機類似的 SOC 芯片,在性能遠低於服務器端 GPU 上的移動端 SOC 芯片上實現一套完整的語音識別、語音合成、機器翻譯和 OCR 流程,計算量是非常大的。這種情況下,翻譯效果一定是比在線的差,因為它的數據和算法會做裁減以匹配 SOC 的算力。

那麼,應該如何在離線的情況下實現更好的結果?張博表示,評測顯示,搜狗翻譯機離線情況下目前是業界里表現最好的,其實是因為搜狗採用了一些方法。

其中一個手段是專註於場景,比如搜狗的一代翻譯器專註於旅行這個場景,聚焦於旅行相關的對話,菜單、路牌等場景,把數據裁減成相關數據集重點處理,這樣就可以得到比較好的結果。其次就是拼算法能力,相當於在更小的空間複雜度和時間複雜度內去做出更好的效果,這就是要拼算法工程師的能力了。

張博說到,人工智能目前的產業發展處於相對初級階段,還是「填坑」大於產出的階段,投入相對多一些,產出會慢一些。有人會說,有了專用的 AI 芯片之後,離線翻譯技術水平會提高。張博不完全認同這一說法:「目前國內外主流的 AI 芯片公司現在做的都是跟圖像相關的 AI 芯片,而不是語音和 NLP 相關的。語音這塊其實是有一些坑的,比如說語音用到的主要的算法做成 AI 芯片難度比圖像里的主要算法要大很多,語音的問題怎麼解決?目前只能語音廠商自己解決,這就是體現出各個語音廠商自己算法能力的時候。」

語音和 NLP 技術評測沒有權威標準

現在,很多企業都會強調自家的語音識別準確率達到 98%,但是關於準確率的實現條件和具體使用環境業內並沒有統一認可的標準。

張博表示,現在人工智能產業處於發展初期,大部分人工智能技術都沒有以一個權威的評測規範和手段。像語音和 NLP 這種語音為核心的領域,目前國內沒有什麼權威的檢測和評測的機構。但這個問題正在得到一步一步解決。搜狗現在是中國人工智能產業發展聯盟的副理事單位之一,張博作為技術和產業組的副組長,了解到聯盟正在推動 AI 技術和產品的評測標準建立,這包括兩個方面,一個是對於技術本身的評測,第二是對於 AI 產品的評測,比如翻譯機、智能音箱、智能車載導航等產品。更廣泛的領域都需要建立一套統一的評測機制,才能解決問題,這需要行業協會來主導,政府來推進,共同建設標準,推動整個行業的發展。

NLP 和語音技術的發展瓶頸

最近,有很多人在討論,近年來 NLP 和語音在技術和應用層面實質上少有突破,到底在技術和應用上,NLP 和語音遇到了什麼樣的瓶頸,才會讓人們感覺到發展速度太過緩慢?

張博認為,回顧最近一波人工智能熱潮的緣起,是因為深度神經網絡的提出,並且 GPU 出現使得算法、算力大幅提升「比如語音識別就是一個典型。在沒有 GPU 加深度學習的時候,大家的準確率怎麼都上不去,現在多家公司都已經宣稱能夠達到 98% 的準確率,這其實就是一個技術的發展帶來了產品效果上的革新。」

張博認為,任何一項人工智能技術,乃至任何一項技術的發展都有一個紅線,其特點是超過了這個紅線,就到了一個產業的拐點迎來產業的飛速發展。所謂的紅線,比如說語音識別的準確率,人臉在安防行業的準確率,很多企業都開始逐漸接近這個紅線,所以這些技術在行業中的應用迎來比較大的發展。

語音識別同理,自從突破了識別準確率的紅線之後,98% 的準確率在應用上已經可以解決很多問題。但是,很多時候我們講的語音識別準確率達到 98%,其實是在一個理想的條件下達成的。比如手機輸入法,對着手機說話拾音效果很好,但在遠場識別、噪音環境識別,或是專業領域,準確率就會大打折扣。也就是說 複雜場景是制約語音識別發展的重要因素之一。

對於 NLP 技術,張博個人認為目前並沒有達到理想的突破,即實現非常順暢的自然語言理解。「目前所有的 NLP 相關的技術更多還是靠大量堆數據和在特定垂直領域制定一些規則來解決問題。現在,人們對 NLP 突破的期待包括,實現整篇文章的閱讀理解、自然的對話、多輪的對話,而不是靠堆規則,這方面目前還有很長的路要走。」張博告訴 AI 前線。搜狗也會在這種「真 NLP」的技術方面努力,比如完整篇章的翻譯和理解。雖然現在的技術還解決不了這些問題,他相信隨着時間的推移,這些問題都會得到解決。

對於何時 AI 翻譯和速記會完全代替人工的問題,張博果斷表示完全替代永遠是做不到的,這需要很長的時間;但可以一步一步,從輔助人工到逐漸去替代人工。

尋求場景突破,商業化前景廣闊

面臨諸多問題和挑戰,NLP 和語音領域未來會在那裡出現突破口呢?張博給出了他的看法:「我這樣看待這個問題,技術是一方面,應用場景可能比技術還要重要。因為如果說是有好的應用場景,就會吸引廣大的研發科研力量往這個應用場景里投入。比如說開會的場景,甚至在一些自然交互的場景、對話的場景甚至是智能客服這些場景,如果有一些成功的進展可能會引領一些技術的突破。」

儘管還有很多問題亟待解決,NLP 和語音技術的應用和商業化前景仍然非常廣闊,包括政企端、智能硬件端、智能語音交互、知識的挖掘和計算,都是比較好的落地場景。

產學研結合轉換成商業效益

張博認為,突破這些障礙的關鍵,在於企業和高校於學術界的聯合研發,比如搜狗與清華大學聯合成立了清華大學天工智能計算研究院,就依靠各自雙方的優勢共同研究課題,在國際大賽中獲獎,並將成果應用於產品中。

例如搜狗與研究院聯合研發的產生的機器翻譯引擎,不僅在國際頂會上獲得優秀論文,還在國際大賽中獲獎,也應用到了搜狗同傳、搜狗翻譯機以及搜狗英文搜索、搜狗翻譯 APP 等多條產品線上。而聯合研發的同傳場景情感遷移和風格遷移項目,以及對話和問答技術,也應用到了同傳和搜索等產品中。

高校 AI 人才供需兩旺

最後,張博談論了關於中國 AI 人才的問題。有人提出質疑,現在高校中的教授被高薪聘為首席科學家等,獲得很高的報酬,問題是,高校中做學術研究的人才是否實用?

對此,張博對此持肯定態度:「之前 IT 界和互聯網界,有工作經驗的工程師會比剛畢業的學生更好用。但是 在人工智能方向,這個情況就不太一樣了,人工智能 強調算法,目前所有高校在人工智能上的投入都非常大,所以說其實包括剛畢業出來的學生,如果他的算法實力夠牛,他已經可以在 AI 界拿非常高的薪水,這已經在行業里有非常多的案例了。」

AI 算法人才的高薪會促進高校的 AI 人才供給。實際情況是,很多高校的計算機相關專業都開始大規模投入 AI 研究。

張博預測,未來幾年整個中國的 AI 人在的供給量會大幅增加,而中國 AI 人才需求量也將大幅增加,所以會導致 AI 人才的薪水可能不會有太大的波動,因為 AI 人才的供給量和需求量都是同步增加的。

採訪嘉賓

張博,搜狗 AI 業務負責人。

原文 : InfoQ

相關閱讀

免责声明:本文内容来源于InfoQ,已注明原文出处和链接,文章观点不代表立场,如若侵犯到您的权益,或涉不实谣言,敬请向我们提出检举。