微信邦

 找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

掃一掃,訪問微社區

返回列表 發新帖
查看: 2494|回復: 0
打印 上一主題 下一主題

CCF-騰訊犀牛鳥基金項目課題介紹(二)——語音技術&自然語言處理技術

[復制鏈接]
跳轉到指定樓層
樓主
發表于 2018-6-15 09:13:43 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
生活圈制作
CCF-騰訊犀牛鳥基金由騰訊與中國計算機學會聯合發起,旨在通過搭建產學合作平臺,連接產業實踐問題與學術科研問題,支持海內外優秀青年學者開展與產業結合的前沿科研工作。

2018年CCF-騰訊犀牛鳥基金共涵蓋機器學習、計算機視覺及模式識別、語音技術、自然語言處理、大數據技術、區塊鏈等6個重點技術領域,涉及31項研究命題。

上一期,我們介紹了機器學習、計算機視覺與模式識別兩個申報主題,這期我們將介紹語音技術專題和自然語言處理技術專題。歡迎青年學者關注了解,希望大家可以從中找到適合自己的申報命題。


三、語音技術專題

3.1 基于機器學習的語音轉換技術的研究
通過語音處理改變一個人的語音個性特征,使之具有另一個人的語音特征,但同時保持原有的語義信息不變,著力于在語音自然度提升與相似度提升方向進行深入的研究與探索。

建議研究方向:
1)語音相似度的提升。
2)語音自然度的提升。
3)基于較小樣本的語音轉換技術。

3.2 音頻處理及音效優化
視頻內容中的音頻,需要適應不同的應用場景,才會有最優的體驗,例如在視聽娛樂中,更有現場感的音效會令內容生色不少;移動端應用中,人聲增強能夠降低環境噪音對用戶的影響;在創作內容中,使用特定的人聲對內容的效果有所提升。

建議研究方向:
1)虛擬環繞聲:使用軟件編解碼技術,使得普通用戶在耳機下也能夠感受到媲美7.1聲道的環繞和多方位的音效。
2)聲音增強:針對例如2聲軌的一般音頻,對人聲進行增強,提升視頻內容中人聲的響度,優化觀看視頻時的聽覺效果,更進一步的把人聲、背景、甚至音樂的聲音分離成不同的音軌,大量產生視頻和音樂的創作素材。
3)視頻換聲:現時換聲技術中有兩種方法,變頻方法能保留內容但無法產生接近特定人物的語音,識別加合成方法無法保留原來的背景聲音,希望探索同時滿足產生特定物聲音的效果同時完整保留聲音內容的技術手段。

3.3 多語種語音識別和信息檢索關鍵技術
隨著互聯網信息技術的發展,語音數據的各類場景問題變得更加復雜。由以前的針對電話語音的問題,發展到現在如何解決語種小眾,場景復雜,隱蔽性極高的問題。尤其是面對諸如阿爾泰語系的維吾爾語,哈薩克語,柯爾克孜語,塔吉克語,烏爾都語(巴基斯坦),印度語(印度),以及東南亞的各個語言包括越南語,泰語,緬甸語時,能夠區分這些語種的語音,以及對跨語種下說話人進行辨認,是一個互聯網場景下亟待解決的問題。
本命題研究擬采取NIST2016和目前積累的東方小語種中的語言,利用最新的端到端語種和說話人識別技術,研究兩者之間的互補和正交,同時針對信道自適應,段長可變性,長音頻等該領域問題進行研究。

建議研究方向:
1)利用現有語種和說話人識別中的端到端,最新的信道自適應等技術,實現長音頻,可變音頻,多語種音頻的語種識別。
2)解決目前語種和說話人識別中,針對多類訓練測試數據稀疏問題的tripple loss建模,針對短音頻的變幀長,xvectors建模,以及用 CNN,LSTM 直接做分類的方法。
3)深入研究偏遠小語種地區的方言識別。
跨語種,跨互聯網,衛星,電話,手機信道下說話人識別的匹配和自適應問題。

3.4 基于短語音的魯棒聲紋識別技術研究
聲紋識別技術在安防,支付及個性化推薦中有著重要的應用價值,相比指紋、虹膜等生物認證技術,基于語音的聲紋識別具有特征獲取便利、人機交互友好、支持遠程操作等特點。如何在產品中利用人的聲音判斷人的身份信息,進而應用于支付或安防的安全控制,如何提取說話人的身份、性別、年齡等信息,進而針對用戶的喜好進行個性化推薦都是有挑戰性的重要課題,其成果將有助于制定產品的戰略決策,以及提升用戶的使用體驗。
對于大部分應用場景,基于短語音的聲紋識別更具用戶友好性,比如智能音箱中的聲紋識別。但基于短語音的聲紋識別也是研究領域的一個難點,特別是在有噪聲或者混響的條件下,短語音識別的準確性會受到很大影響。本課題將面向該領域做更深入的研究探索。

建議研究方向:
1)文本相關的魯棒聲紋識別,比如基于音箱喚醒詞。如何利用深度學習技術獲得更為緊湊的聲紋特征,如何減小噪聲或者混響的影響,如何基于深度學習技術搭建端到端的學習框架為該方向的熱點問題。
2)文本無關的短語音魯棒聲紋識別,該方法可用于對音箱命令語句的身份判別。目前,如何學習基于整句短語音的深度embedding特征是該方向的研究熱點。
3)聲紋識別中的防欺詐問題研究,如何應對包括變聲,錄音,或者語音合成的攻擊。

3.5 基于端到端語音識別系統的復雜場景聲源定位和分離
近年在業界和學界前沿,以深度學習為代表的尤其是端到端的語音識別出現了一系列激動人心的技術進展。但在業界實際產品落地時,語音識別系統在真正實際的環境中仍表現得差強人意,這些環境包括:遠場麥克風,例如起居室、會議室、場內錄制等;高干擾環境,例如麥克風同時捕捉到電視、音樂聲源;多人語音,例如家庭、會議多方談話等。如何基于端到端語音識別系統進行復雜場景中聲源的定位和分離,并將定位和分離的結果反饋并進一步優化端到端的語音識別,是一項重要的有挑戰性的課題,其成果有助于形成有技術壁壘的產品和脫穎而出的商用系統。

建議研究方向:
1)搭建包含聲源定位和分離模塊的端到端的語音識別系統。
2)結合落地場景中的實際情況,研究得到可用于提高聲源定位和分離性能的有效信息。
3)研究循環反饋以預測、修正和自適應處理包括多聲源環境、聲源定位、聲源到多麥克風的混合信道等復雜實際條件的動態系統,提高端到端語音識別系統的準確率。

3.6 基于對抗學習的語音處理算法研究
最近生成的對抗網絡及相關方法在圖像相關研究中取得了很大的成功,并被開始應用到其他一些研究領域,比如自然語言處理。相比之下,對抗網絡在語音上的相關研究還比較少,現有的一些工作也比較初步。我們希望針對騰訊產品的真實場景需求,利用對抗網絡及對抗思想來構建相關語音處理系統并提升系統性能。

建議研究方向:
1)基于生成對抗網絡的語音和音樂生成。
2)基于生成對抗網絡的語音增強、人聲分離和音樂分離。
3)基于對抗學習的多領域和說話人自適應技術。
4)基于生成對抗網絡的多說話人語音識別。




四、自然語言處理技術專題

4.1 用于特定領域的對話服務機器人
為了給產品注入擬人化、個性化的服務,有很多場景都可以使用對話的形式,與用戶進行一對一溝通。例如,為用戶介紹游戲玩法、服務功能、FAQ,甚至情緒安撫等特定的領域。如何利用對話語料,投入少量的人力成本,構造能服務于某個特定領域的對話機器人,是一項有挑戰性的研究課題,其成果將有助于產品在AI時代的體驗升級與節省人力成本。
建議研究方向:
1)對用戶的發言進行理解,用結構化的形式(完備地)表達出來。
2)利用相關業務對話語料,建立模型,輸入用戶發言,直接輸出應答。
3)通過技術手段,研究如何衡量對話的質量、有效性與服務效果。

4.2 開放域多輪交互聊天技術探索
人與人之間關于某個主題的交流,往往需要經過多輪對話才會結束。當前盡管某些垂直類別的對話機器人已經很好地支持了多輪交互,但在開放域聊天中,支持多輪交互仍然是一個很大的挑戰。構建高質量的基準數據集并且研究多輪交互聊天的方法模型,將是很有實際意義的課題。

建議研究方向:
1)研究聊天數據的數據來源并且構建一份可用于多輪交互聊天相關研究的(中文)數據集。
2)研究如何利用多輪交互中的上下文信息,使生成或者檢索得到的回復盡可能與上下文協調一致。
3)多輪交互中的個性化研究:根據與用戶的交互歷史生成用戶畫像,并基于畫像生成與用戶相關的個性化回復。

4.3 基于對抗網絡的神經機器翻譯
得益于神經網絡的建模能力,神經機器翻譯模型在質量上取得了突破性進展,逐漸成為了商業在線系統的核心模塊。然而,目前神經翻譯采用了最大似然估計法,逐詞進行優化的方式,缺乏對整句信息的綜合考慮,導致譯文的連貫性依然存在一些問題。對抗網絡(GAN)使用一個生成模型進行預測,使用另一個判別模型評估,能夠以句子為單位進行離散的錯誤反饋,一定程度上可以緩解上述問題。如何成功的構建一個基于對抗網絡的機器翻譯框架是一個具有挑戰性的重要課題,可以有效的改進當前神經機器翻譯質量,產生邏輯上更連貫的譯文,極大改進用戶的閱讀體驗。

建議研究方向:
1)研究適應于神經機器翻譯的判別模型,可以有效區分人工翻譯和機器翻譯,從而指導機器翻譯系統生成更自然的譯文。
2)研究更平滑的信息反饋模式,建立生成模型和判別模型之間更通暢的信息傳遞方法,逐步而不是逐句反饋信號。
3)簡化模型框架,提高訓練效率,可以將該框架應用到實際系統。

4.4 神經機器翻譯和輔助翻譯技術探索
基于神經網絡的機器翻譯模型已經成為主流,在評測及實際應用中都取得了當前最好的效果。但神經網絡目前仍然是個黑盒子,缺乏必要的解釋性及精確控制性,這給神經網絡翻譯模型的進一步提高以及模型在實際場景中的應用,都帶來了極大挑戰。解釋并找到一種方式更精確的控制神經網絡翻譯模型,并將其更好地應用到實際的翻譯場景中,將是很有實際意義的課題。

建議研究方向:
1)神經網絡翻譯模型的可解釋性:比如模型中信息傳遞,各向量表示的物理意義或實際語義等。
2)如何引入外部知識:外部知識(比如命名實體詞典、翻譯記憶庫等)對實際翻譯系統的效果有重要的作用,找到一種可行的機制把外部知識引入到當前深度模型中,這具有較高的研究價值。
3)如何構建訓練有效的基于短語的神經翻譯模型,使得它可以相對容易地擴展到大規模訓練數據上。
4)如何加速神經機器翻譯的訓練,以降低訓練模型在時間和經濟方面的代價,比如設計有效的數據并行方法,使得可以在多臺CPU機器上訓練模型。
5)提出新的面向翻譯場景的人機交互方法,如交互式機器翻譯方法、融合機器翻譯的輸入法、觸屏交互方法。
6)研究如何利用人機交互的上下文信息,使機器翻譯生成的自動譯文盡可能符合當前譯員的要求。
7)譯文質量評估研究,給定原文句子和自動譯文,在沒有參考譯文的情況下,對自動譯文的全部或者片斷生成質量分數。

分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友 微信微信
收藏收藏
回復

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

微信邦網聯系QQ|Archiver|手機版|小黑屋|魯公網安備 37082802000167號|微信邦 ( 魯ICP備19043418號-5

GMT+8, 2019-11-12 14:53 , Processed in 1.278994 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Wxuse Inc. | Style by ytl QQ:1400069288

快速回復 返回頂部 返回列表
平特不出最多几期