成年网站免费视频黄a站,免费一级毛片不卡不收费

首頁(yè)家居家電手機(jī)數(shù)碼 IT互聯(lián)網(wǎng)電商零售汽車出行游戲娛樂(lè)半導(dǎo)體新基建酷品評(píng)測(cè)

原創(chuàng)

2021-10-28 18:13:12

來(lái)源：釘科技??

作者：建輝

［釘科技觀察］近日，“第四屆世界聲博會(huì)暨2021科大訊飛全球1024開(kāi)發(fā)者節(jié)”在合肥收官，科大訊飛開(kāi)放平臺(tái)2.0戰(zhàn)略的發(fā)布成為期間重點(diǎn)，意在推進(jìn)人工智能生態(tài)更好地實(shí)現(xiàn)共同繁榮。在開(kāi)幕式與主論壇環(huán)節(jié)，“人工智能技術(shù)源頭創(chuàng)新”被多次提及，代表了科大訊飛一貫的技術(shù)信仰。2.0戰(zhàn)略發(fā)布后，科大訊飛研究院院長(zhǎng)胡國(guó)平也介紹了技術(shù)生態(tài)順應(yīng)開(kāi)放平臺(tái)升級(jí)做出的變化。

胡國(guó)平說(shuō)，科大訊飛堅(jiān)持在人工智能的技術(shù)層面進(jìn)行源頭技術(shù)的突破和多技術(shù)的融合，來(lái)推動(dòng)實(shí)現(xiàn)系統(tǒng)性創(chuàng)新。

在科大訊飛的理解中，系統(tǒng)性創(chuàng)新有三個(gè)關(guān)鍵要素：一是重大系統(tǒng)性命題到科學(xué)問(wèn)題的轉(zhuǎn)化能力；二是從單點(diǎn)的核心技術(shù)效果上取得突破，跨過(guò)應(yīng)用門(mén)檻；三是把創(chuàng)新鏈條上各個(gè)關(guān)鍵技術(shù)深度融合，最終實(shí)現(xiàn)真正意義上的系統(tǒng)性創(chuàng)新。

階段行動(dòng)來(lái)看，科大訊飛重點(diǎn)關(guān)注四大源頭技術(shù)：端到端的建模，解決分段建模式的信息損失問(wèn)題；無(wú)監(jiān)督訓(xùn)練，實(shí)現(xiàn)用更少的數(shù)據(jù)獲得更好的效果；多模態(tài)融合，充分利用多維多元信息；外部知識(shí)融合，把人類的常識(shí)、知識(shí)融入到算法模型的構(gòu)建中。

具體來(lái)看：

端到端建模。在深度學(xué)習(xí)的框架下，端到端的建模可以有效的緩解分段建模所帶來(lái)的信息損失，以及錯(cuò)誤的級(jí)聯(lián)傳播問(wèn)題。

訊飛首先把端到端建模技術(shù)成功應(yīng)用到了復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別，構(gòu)建了前后端一體化的語(yǔ)音識(shí)別系統(tǒng)，提高復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別效果；另外把端到端建模的技術(shù)成功運(yùn)用到語(yǔ)音的翻譯任務(wù)上，實(shí)現(xiàn)了CATT語(yǔ)音翻譯技術(shù)，該技術(shù)可以把一個(gè)語(yǔ)種的語(yǔ)音輸入自動(dòng)識(shí)別并翻譯成另外一個(gè)語(yǔ)種的文本進(jìn)行輸出，實(shí)現(xiàn)了語(yǔ)音識(shí)別和機(jī)器翻譯任務(wù)的統(tǒng)一建模，緩解語(yǔ)音識(shí)別錯(cuò)誤對(duì)翻譯效果的影響。

無(wú)監(jiān)督訓(xùn)練。包括弱監(jiān)督、半監(jiān)督等一系列創(chuàng)新。旨在破解對(duì)大規(guī)模無(wú)監(jiān)督訓(xùn)練數(shù)據(jù)的依賴造成的人工智能突破瓶頸。

無(wú)監(jiān)督訓(xùn)練在語(yǔ)音合成上的應(yīng)用，就有為了降低對(duì)語(yǔ)音合成音庫(kù)的規(guī)模，提出來(lái)的聽(tīng)感量化的編碼的方法，借助語(yǔ)音識(shí)別數(shù)據(jù)，以其他人的語(yǔ)音合成音庫(kù)來(lái)實(shí)現(xiàn)多人的混合模型的訓(xùn)練，只需要少量發(fā)音人的數(shù)據(jù)，就可以實(shí)現(xiàn)這樣發(fā)音人的高音質(zhì)語(yǔ)音合成。今年進(jìn)一步提出了全屬性可控語(yǔ)音合成方法，實(shí)現(xiàn)了從海量語(yǔ)音數(shù)據(jù)中無(wú)監(jiān)督的學(xué)習(xí)發(fā)音內(nèi)容、情感和音色這三個(gè)屬性，并且使用信息約束訓(xùn)練，使得三個(gè)屬性相互結(jié)合，可以實(shí)現(xiàn)對(duì)音色、情感等屬性的自由控制。

訊飛的語(yǔ)音識(shí)別有35個(gè)語(yǔ)種的識(shí)別的識(shí)別率，從80%進(jìn)一步提升到了90%，而語(yǔ)音合成的24個(gè)語(yǔ)種的自然度也從3.5分提升到了4.0分。同樣也在語(yǔ)種的機(jī)器翻譯，多語(yǔ)種的圖文識(shí)別上都取得了顯著進(jìn)步，在6個(gè)少數(shù)民族語(yǔ)言方面也實(shí)現(xiàn)了同樣的技術(shù)進(jìn)步，跨過(guò)了使用門(mén)檻。

另外一個(gè)重要應(yīng)用領(lǐng)域，就是基于弱監(jiān)督的句子級(jí)的語(yǔ)義表達(dá)。基于這樣一個(gè)框架，以及在易訓(xùn)的模型技術(shù)上的一些積累，完成了中文、粵語(yǔ)以及6個(gè)少數(shù)民族的相關(guān)模型，推動(dòng)少數(shù)民族語(yǔ)言的認(rèn)知智能等相關(guān)技術(shù)的研發(fā)。

多模態(tài)融合。人機(jī)交互是多模態(tài)融合的典型應(yīng)用場(chǎng)景。

一個(gè)多模態(tài)融合的例子是復(fù)雜文檔的結(jié)構(gòu)化。比如考試中的一份試卷，具有各種各樣的題目、表格、插圖，以及學(xué)生手寫(xiě)的的答題信息等等?？拼笥嶏w基于多模態(tài)信息融合的技術(shù)，不僅使用題目中的相關(guān)的語(yǔ)義的信息，還用到了各種版面的特征，例如“表示質(zhì)地大小”這樣的視覺(jué)特征，“表示縮進(jìn)居中”這樣的空間特征等等，最終實(shí)現(xiàn)了不同場(chǎng)景下文檔結(jié)構(gòu)化的精度的提升。類似于教育場(chǎng)景下的教輔作業(yè)的語(yǔ)義結(jié)構(gòu)化的精度，從原來(lái)92%提升到了98%。同樣的技術(shù)被推廣到了更多的行業(yè)文檔，例如合同、簡(jiǎn)歷、文書(shū)等等上，旨在為開(kāi)發(fā)者在自己不同的行業(yè)領(lǐng)域開(kāi)展智能化文檔處理提供更好的技術(shù)支撐。

外部知識(shí)融合。現(xiàn)在大部分的深度學(xué)習(xí)的模型都是基于有監(jiān)督或者大量的無(wú)監(jiān)督的數(shù)據(jù)訓(xùn)練出來(lái)的，但是從智能系統(tǒng)的角度來(lái)說(shuō)，人類的知識(shí)其實(shí)是一個(gè)非常重要的信息來(lái)源。

這方面訊飛做了兩個(gè)關(guān)鍵的技術(shù)突破。一是在語(yǔ)音交互任務(wù)中，把人類的常識(shí)、知識(shí)總結(jié)為事理圖譜，融入到整個(gè)交互的系統(tǒng)中，從而實(shí)現(xiàn)機(jī)器能夠與人的主動(dòng)交互。二是使用海量的人類已有的醫(yī)學(xué)文獻(xiàn)知識(shí)，提高機(jī)器的自動(dòng)診療的準(zhǔn)確率，訊飛把各種醫(yī)學(xué)文獻(xiàn)知識(shí)進(jìn)行了結(jié)構(gòu)化處理，形成了醫(yī)學(xué)的知識(shí)圖譜，并且使用圖神經(jīng)網(wǎng)絡(luò)對(duì)于圖譜進(jìn)行編碼，這樣就可以基于深度實(shí)時(shí)的推理網(wǎng)絡(luò)，從知識(shí)和病歷兩個(gè)視角進(jìn)行注意力的交互學(xué)習(xí)，綜合決策給出最終的治療結(jié)果，類似的實(shí)踐也出現(xiàn)在了教育、司法等領(lǐng)域。

以上單點(diǎn)技術(shù)上持續(xù)進(jìn)步外，訊飛也關(guān)注三個(gè)方面的系統(tǒng)層面的技術(shù)挑戰(zhàn)，畢竟人工智能往往是一個(gè)復(fù)雜的系統(tǒng)；一是面向全局目標(biāo)的技術(shù)架構(gòu)的解析能力；二是全鏈條貫穿的多技術(shù)融合創(chuàng)新能力；三是基于人機(jī)耦合復(fù)雜系統(tǒng)的自進(jìn)化能力。

胡國(guó)平還介紹了三個(gè)具體的復(fù)雜系統(tǒng)的構(gòu)建的案例。

一是以低延時(shí)下的多技術(shù)融合的語(yǔ)音同傳系統(tǒng)為例，解釋面向全局目標(biāo)技術(shù)架構(gòu)的能力。訊飛已經(jīng)建立模型，端到端的實(shí)現(xiàn)了從語(yǔ)音到文本的自動(dòng)翻譯；接著是把傳統(tǒng)句子級(jí)別的語(yǔ)音合成系統(tǒng)改造為流式的語(yǔ)音合成，對(duì)實(shí)時(shí)輸入的片段文本進(jìn)行合成；同時(shí)實(shí)現(xiàn)基于一句話的語(yǔ)音合成系統(tǒng)的音色遷移，使得合成的語(yǔ)音人能夠保持原始說(shuō)話人的音色，實(shí)現(xiàn)更好的同傳體驗(yàn)；為提高類似于大會(huì)演講上語(yǔ)音識(shí)別和翻譯的效果，還進(jìn)一步把大會(huì)演講PPT中的文字全部OCR（特別是相關(guān)的專業(yè)術(shù)語(yǔ)），并且實(shí)時(shí)送入語(yǔ)音識(shí)別系統(tǒng)進(jìn)行實(shí)時(shí)的優(yōu)化，最終在盡可能保證翻譯效果的同時(shí)實(shí)現(xiàn)低延時(shí)的同傳翻譯。目前訊飛最新的翻譯系統(tǒng)的平均延時(shí)已經(jīng)從原來(lái)的8秒下降到4秒。

二是新推出來(lái)的多模態(tài)虛擬人交互系統(tǒng)。虛擬人的交互需要集成語(yǔ)音識(shí)別、對(duì)話理解、對(duì)話生成、語(yǔ)音合成、虛擬人形象生成等等多項(xiàng)的人工智能單點(diǎn)技術(shù)，需要實(shí)現(xiàn)全面和技術(shù)貫穿，才能實(shí)現(xiàn)更一致更和諧的虛擬人交互系統(tǒng)。

以情感維度為例，訊飛實(shí)現(xiàn)了基于多模態(tài)信息的情緒感知，基于情緒的回復(fù)對(duì)話文本生成以及可展現(xiàn)對(duì)應(yīng)情緒的虛擬人的表情和語(yǔ)音合成。基于全局的系統(tǒng)性的規(guī)劃設(shè)計(jì)，以及全鏈條單點(diǎn)技術(shù)的有效配合，造就愛(ài)加有情感、有個(gè)性的多模態(tài)虛擬人。

三是訊飛自研系統(tǒng)。以科大訊飛所研發(fā)的智醫(yī)助理的系統(tǒng)為例，智醫(yī)助理系統(tǒng)在基層醫(yī)生的診斷過(guò)程中就直接提供包括診斷建議、合理用藥、進(jìn)一步問(wèn)診問(wèn)題等核心的功能，幫助基層醫(yī)生實(shí)現(xiàn)更好的診療。同時(shí)，當(dāng)現(xiàn)場(chǎng)的基層醫(yī)生和機(jī)器診斷結(jié)果不一致的時(shí)候，系統(tǒng)還會(huì)將病歷轉(zhuǎn)移到上級(jí)的醫(yī)院進(jìn)行更進(jìn)一步的診斷。系統(tǒng)也會(huì)持續(xù)的收集基層醫(yī)生和專家醫(yī)生的在整個(gè)交互過(guò)程中的這種反饋信息，用于系統(tǒng)的實(shí)時(shí)進(jìn)化。兩年以來(lái)，智醫(yī)助理和所服務(wù)的2萬(wàn)多基層醫(yī)生的2.9億次的持續(xù)互動(dòng)，機(jī)器的自動(dòng)診斷的正確率從95%進(jìn)一步提升了97%?；鶎俞t(yī)生的診療水平在機(jī)器輔助下，從70%提升到了90%。

胡國(guó)平說(shuō)，訊飛AI系統(tǒng)和醫(yī)生實(shí)現(xiàn)了相互啟發(fā)、相得益彰、共同進(jìn)步，實(shí)現(xiàn)了人機(jī)耦合復(fù)雜系統(tǒng)的持續(xù)進(jìn)化。類似的自進(jìn)化機(jī)制，也同樣在個(gè)性化學(xué)習(xí)、語(yǔ)音交互、語(yǔ)音翻譯等領(lǐng)域?qū)崿F(xiàn)了成功應(yīng)用，推動(dòng)了科大訊飛相關(guān)產(chǎn)品和系統(tǒng)的持續(xù)進(jìn)步。

再向更遠(yuǎn)的源頭，科大訊飛人也在包括腦科學(xué)、數(shù)學(xué)、量子等學(xué)科方面進(jìn)行了長(zhǎng)期的基礎(chǔ)研究的布局。（釘科技根據(jù)胡國(guó)平在“2021科大訊飛1024全球開(kāi)發(fā)者節(jié)”上的發(fā)言整理并原創(chuàng)，轉(zhuǎn)載務(wù)必注明“來(lái)源：釘科技”）

原創(chuàng)文章

美的格力小米領(lǐng)銜第一陣營(yíng) 618前空調(diào)市場(chǎng)凸顯格局裂變

“1晚多睡1小時(shí)”，海信新風(fēng)空調(diào)破解3億人“缺覺(jué)困境”

平板電腦品牌分化：蘋(píng)果居第一，三星華為下滑，小米首超聯(lián)想

極米R(shí)S20：技術(shù)創(chuàng)新+生態(tài)協(xié)同，重塑全球投影行業(yè)新坐標(biāo)

vivo X200 Ultra攝影師套裝體驗(yàn)：手機(jī)影像邁入了“專業(yè)賽道”?

康佳一季度利潤(rùn)總額飆升！“科技+制造”雙重躍遷

小米空調(diào)要做“數(shù)一數(shù)二”，傳統(tǒng)巨頭如何應(yīng)對(duì)？

一臺(tái)電視，如何實(shí)現(xiàn)“云養(yǎng)”大熊貓？