您现在的位置德庆新闻首页>>社会新闻>>正文

实验室学习-腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合

长江现死亡江豚

作為多媒體技術的重要組成部分,語音通信扮演着非常重要的角色,而語音通信體驗則成為了打造沉浸式多媒體體驗的關鍵一步。

隨着5G時代的正式到來,又一次產業革命大潮正在悄然而至,人工智能、物聯網loT、雲計算、5G等前沿技術出現在大眾視野。11月6日-7日,Techo開發者大會在北京舉行,在音視頻及通信專場上,騰訊多媒體實驗室專家研究員肖瑋帶來以「信號處理遇見深度學習,語音通信新技術的研發實踐」為主題的演講,從語音通信面臨的挑戰,以及智慧語音通信技術的發展兩方面介紹深度學習為語音通信帶來的創新。

在5G浪潮下,多媒體的技術和形式不斷發生改變,高效率低延遲的傳輸,帶來了更豐富的落地場景,讓8K、VR、AI更加觸手可及。騰訊多媒體實驗室也開始在沉浸式媒體和泛媒體方向發力,目前,多媒體實驗室已經產出了相應的SDK(軟件開發工具包)供文旅以及教育行業使用,未來將會在融媒體、新媒體等更多更豐富的場景落地,為用戶帶來極具5G時代色彩的沉浸式體驗。

(騰訊多媒體實驗室專家研究員 肖瑋)

此外,由於信號傳輸過程中可能出現的衰減等問題,在轉碼的過程中很容易出現轉碼失真的情況,影響音頻回放的質量。為了解決這一問題,打造了一套盲式下行后處理技術。該技術兼容包括ITU-T G.711在內的各種標準協議,並且可以與音頻超分協同;無需修改現有的通信協議,可降低轉碼失真,同時具備便於部署的輕量級建模的特性。

肖瑋介紹,多媒體實驗室將深度學習應用於信號處理過程中,一方面,基於深度學習,對瞬態等非平穩噪聲形成有效抑制,實現語音增強;另一方面,結合經典信號處理和深度學習設計了音頻超分技術,前向兼容現有協議前提上,提升信號的分辨率,將窄帶語音輸入騰訊雲,補足窄帶語音所丟失的部分,提升回放內容質量。同時,輕量級設計方法,能夠保證模型小,可以在雲端(支持大併發)或者終端(低功耗)部署。

相較於模擬信號時代的語音通信,數字信號時代的語音通信在流程上要複雜許多。「從技術層面出發,語音通信主要存在三個技術挑戰。」據肖瑋介紹,其一,信源層面上,如何獲得近似無噪聲、無回聲、無混響的聲音信號源?其二,傳輸鏈路層面上,如何兼容不同的的壓縮與傳輸標準,並確保傳輸穩定?其三,工程化層面上,如何確保功能模塊在維持低複雜度的同時,做到更優秀的性能及低時延?這三項挑戰成為擺在語音通信技術面前的「三座大山」。

「藉助深度學習,我們打通了從上行到傳輸再到下行的完整鏈路,這一系列技術不僅性能強大,同時又具備着輕建模,易部署的特性,能夠廣泛應用於基於數字信號傳播的語音通話中。」肖瑋表示,基於深度學習手段,騰訊多媒體實驗室將語音信號處理與人工智能技術進行深入結合,打造出端到端的智慧語音通信解決方案,實現自然的人與人之間的交流。

作為騰訊旗下頂尖的音視頻通信和處理研發團隊,騰訊多媒體實驗室在標準制定方面已經取得了令人矚目的成績,有近50項提案被下一代視頻編碼標準VVC/H.266採納。此外,在虛擬現實(VR)、點雲(PCC)、網絡傳輸協議 (DASH)、多媒體系統(OMAF、CMAF、NBMP) 等相關多媒體標準中也取得了突破性進展,獲得多項標準核心專利。

看似簡單的數字語音通信,其實存在着眾多需要解決的問題以及複雜的流程,想要打造一套具備普適性的語音通信系統,自然少不了深度學習的助力。

Techo開發者大會由騰訊雲發起,匯聚全球頂尖行業專家和技術愛好者,通過一場主論壇、18個技術方向分論壇和多場創新互動活動,為全球開發者搭建一個開放、中立、活躍的技術平台,助力于開發者的能力成長和實踐創新。本屆大會聚集來自全球5000多位開發者,並邀請超150位業界大咖圍繞前沿技術發展進行分享和交流。

提升語音通信的質量只是智慧語音通信的一個側面,它能夠實現的功能則遠不止於此。肖瑋表示,隨着智慧語音通信技術的進一步發展,未來,騰訊多媒體實驗室也將持續進行技術創新,讓沉浸式音視頻體驗更加觸手可及。

今日关键词:U盘20年专利到期