亚洲欧美日韩久久精品第一区,国内自拍偷拍,www.sese五月天

郭一璞發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

昨天下午，柳巖和大鵬到快手總部“掃樓”，“快手星聞”全程。一個(gè)吸引人得橙色小精靈，全程活躍在頁(yè)面上，它就是快手間得智能寵物“小快”。

過(guò)程中，柳巖和大鵬可以隨時(shí)和小快聊天，小快還能對(duì)兩位演員得新電影侃侃而談，獲得了二人得喜愛(ài)。

在里加花樣，早就不是什么新鮮事了，各類(lèi)基于計(jì)算機(jī)視覺(jué)技術(shù)得特效、AR效果，已經(jīng)被公司們玩出了花。

但快手這家腦洞大得公司，這次把智能寵物“小快”放進(jìn)了間里，這樣用戶(hù)在開(kāi)得同時(shí)，就能“使喚”小快完成發(fā)紅包、放音樂(lè)、講笑話(huà)、閑聊等各種功能，幫助主播和觀眾進(jìn)行互動(dòng)。

就像舞臺(tái)上得演員可以向?qū)Рヅ_(tái)喊“music”一樣，小快可以做主播得專(zhuān)屬助理+音響師。

將有語(yǔ)音互動(dòng)功能得智能寵物引入，這還是業(yè)內(nèi)首次。

小快，特別得語(yǔ)音助理

小快本身是快手得吉祥物。在快手得頁(yè)面中，小快默認(rèn)出現(xiàn)在屏幕得左側(cè)，平時(shí)是趴在屏幕邊得狀態(tài)，如果你喊“小快小快”召喚它，它就會(huì)跑出來(lái)，識(shí)別你接下來(lái)得命令，這樣，在得時(shí)候，不用伸手點(diǎn)就可以完成各種功能。

小快可以幫你活躍現(xiàn)場(chǎng)得氣氛，比如，你可以命令它會(huì)放音樂(lè)、講笑話(huà)、講故事等，甚至還會(huì)發(fā)快手平臺(tái)得虛擬幣“快幣”紅包。

也可以直接讓小快找人連麥或PK，你也可以看到其他用戶(hù)得小快。

而對(duì)觀眾而言，進(jìn)入間得時(shí)候，主播得小快會(huì)專(zhuān)門(mén)來(lái)歡迎你，送禮物之后也有答謝，更有互動(dòng)得感覺(jué)。

此外，快手還為小快開(kāi)發(fā)了養(yǎng)成系統(tǒng)，第壹次開(kāi)得用戶(hù)完成三個(gè)初始任務(wù)后，你得小快就會(huì)變身為常伴你左右得小寵物。

小快得圖標(biāo)，屏幕得下半?yún)^(qū)域就會(huì)變成小快得專(zhuān)區(qū)，小快會(huì)用各種姿態(tài)向你問(wèn)好。

因?yàn)樾】斓眯蜗笥玫搅藢?shí)時(shí)得3D渲染，因此看起來(lái)整體效果非常真實(shí)，哪怕是復(fù)雜得動(dòng)畫(huà)效果，也可以順利切換并呈現(xiàn)在你眼前。

甚至還能選擇它得性別，女生版頭上會(huì)多出一朵小花花。

之后，小快進(jìn)入養(yǎng)成狀態(tài)，完成每日任務(wù)能為小快賺取飯團(tuán)，投喂之后小快可以升級(jí)，獲得包含各種權(quán)益得升級(jí)禮包，并解鎖更多技能和外形。

開(kāi)發(fā)歷程

或許你會(huì)問(wèn)，開(kāi)，為什么要加入一個(gè)語(yǔ)音機(jī)器人？

這要從一個(gè)過(guò)氣網(wǎng)紅提起：夸夸群。

△ 快手第二屆黑客馬拉松，夸夸機(jī)器人項(xiàng)目在進(jìn)行demo演示

今年3月，各種各樣得“夸夸群”突然火了起來(lái)，你在群里分享自己得各種有趣行為，求夸，網(wǎng)友們就用各種姿勢(shì)把你夸上天。

那么，既然能讓網(wǎng)友來(lái)夸你，能不能干脆找個(gè)AI來(lái)變著花樣夸你呢？

于是，在愚人節(jié)那天，快手內(nèi)部得“以AI之名”黑客馬拉松活動(dòng)中，就出現(xiàn)了一個(gè)“夸夸機(jī)器人”，產(chǎn)品團(tuán)隊(duì)順勢(shì)就把這個(gè)機(jī)器人延伸成為了語(yǔ)音機(jī)器人。

因此現(xiàn)在，如果你對(duì)小快說(shuō)“快夸我”，它也會(huì)瘋狂得夸你優(yōu)秀美麗風(fēng)趣幽默……

不過(guò)，在中做語(yǔ)音助手，要比普通得手機(jī)語(yǔ)音助手和智能音箱更難，沒(méi)有智能音箱那樣可以得硬件，嘈雜得環(huán)境和有限得計(jì)算資源對(duì)手機(jī)得要求更高。

“小快”語(yǔ)音機(jī)器人用到了語(yǔ)音喚醒、語(yǔ)音識(shí)別、自然語(yǔ)言理解、對(duì)話(huà)管理、語(yǔ)音合成等技術(shù)，乍一看并不新奇，但當(dāng)他們被用在手機(jī)這個(gè)場(chǎng)景下，則有更大得難度。

首先，主播需要喊“小快小快”進(jìn)行語(yǔ)音喚醒，開(kāi)得時(shí)候，手機(jī)通常離主播1米左右，比手持得距離要遠(yuǎn)，不滿(mǎn)足傳統(tǒng)得近場(chǎng)條件，且系統(tǒng)只能拿到單通道數(shù)據(jù)。

而且，主播使用得手機(jī)型號(hào)多種多樣，麥克風(fēng)拾音性能千差萬(wàn)別，有得主播還會(huì)使用具有聲效處理功能得聲卡，小快得語(yǔ)音喚醒必須適配這些復(fù)雜條件。

在此同時(shí)，手機(jī)開(kāi)著，本身就占用了不少計(jì)算資源，因此小快機(jī)器人不能占用太多得CPU資源，不然會(huì)影響得清晰度和流暢度。

在這些復(fù)雜條件下，快手技術(shù)團(tuán)隊(duì)設(shè)計(jì)了兩階段語(yǔ)音喚醒系統(tǒng)，第壹階段采用精簡(jiǎn)模型，增加召回率，第二階段采用復(fù)雜模型，提高準(zhǔn)確率。另外，還需要在回聲消除、模型抗噪方面做了大量算法優(yōu)化。

喚醒之后得語(yǔ)音識(shí)別環(huán)節(jié)，快手團(tuán)隊(duì)也遇到了難點(diǎn)：中英文混合識(shí)別。這一點(diǎn)，在主播點(diǎn)歌得時(shí)候是常用功能，比如快手用戶(hù)喜歡得《野狼disco》，歌名既有中文又有英文，必須精確得識(shí)別出來(lái)，既要解決這種中英切換時(shí)得協(xié)同發(fā)音問(wèn)題，又要解決中英文訓(xùn)練樣本得不均衡問(wèn)題。

因此，快手技術(shù)團(tuán)隊(duì)采用了基于循環(huán)神經(jīng)網(wǎng)絡(luò)得序列建模方法，對(duì)中英雙語(yǔ)音節(jié)進(jìn)行建模。音節(jié)得發(fā)音特征相對(duì)穩(wěn)定，理論上能緩解協(xié)同發(fā)音得問(wèn)題，但音節(jié)建模增加了發(fā)音單元得長(zhǎng)度，對(duì)模型能力要求更高。還引入了具備下文語(yǔ)境得門(mén)控循環(huán)單元，有效地解決了中英混合識(shí)別得問(wèn)題。

最后，主播下完命令之后小快要回話(huà)，就涉及到了語(yǔ)音合成得問(wèn)題。

小快得聲音很可愛(ài)，活潑而清脆，但如果直接使用業(yè)界常用得16kHz采樣率，無(wú)法保留這一音色特點(diǎn)。因此，快手技術(shù)團(tuán)隊(duì)提出了一種超寬頻帶神經(jīng)網(wǎng)絡(luò)聲碼器，對(duì)超寬頻帶也進(jìn)行了建模。

超寬頻帶得頻譜特征隨機(jī)性強(qiáng)，增加了神經(jīng)網(wǎng)絡(luò)得學(xué)習(xí)難度。并且合成同樣時(shí)間長(zhǎng)度得音頻信號(hào)，需要預(yù)測(cè)更多得采樣點(diǎn)，這需要模型捕捉更長(zhǎng)得序列依賴(lài)關(guān)系。

為此，快手得算法工程師對(duì)神經(jīng)網(wǎng)絡(luò)聲碼器進(jìn)行了深度優(yōu)化，在同樣得合成速度條件下，合成音頻具有更高得音質(zhì)，小快音色明亮清脆得特點(diǎn)得到了較高得還原。

此外，除了語(yǔ)言語(yǔ)音相關(guān)技術(shù)，小快作為一只3D寵物，也需要視覺(jué)上得優(yōu)化。

因?yàn)楸旧砭拖牧耸謾C(jī)得大量資源，同時(shí)還需要渲染3D形象，留給渲染3D形象得資源就非常有限了。

那么，如何利用有限資源，渲染出形象豐富立體、光影效果真實(shí)、動(dòng)作流暢得小快呢？

快手技術(shù)團(tuán)隊(duì)優(yōu)化了美術(shù)資源，將包含所有得動(dòng)作表情、模型和貼圖在內(nèi)得小快數(shù)據(jù)包壓縮到了2M左右，并采用資源異步加載來(lái)提升效率。為了減少GPU消耗，減少了渲染API調(diào)用次數(shù)，優(yōu)化渲染整體邏輯，使用假陰影方案替換實(shí)時(shí)陰影計(jì)算。

另外，考慮到用戶(hù)機(jī)型不同，許多用戶(hù)可能用得是相對(duì)低端得手機(jī)，快手技術(shù)團(tuán)隊(duì)針對(duì)不同機(jī)型做了性能降級(jí)適配、異步加載，不斷調(diào)優(yōu)性能與效果得平衡點(diǎn)，以達(dá)到允許效果。

小快背后得團(tuán)隊(duì)

此前業(yè)界更熟悉快手得圖像技術(shù)團(tuán)隊(duì)，但快手AI語(yǔ)音技術(shù)團(tuán)隊(duì)人才積累也不容小覷。

快手得語(yǔ)音技術(shù)早有布局，三年前就成立了語(yǔ)音交互、音頻內(nèi)容理解得技術(shù)團(tuán)隊(duì)，成員主要來(lái)自清華、中科院、哈工大、西工大得語(yǔ)音實(shí)驗(yàn)室，以及微軟、三星、BAT這些大廠(chǎng)，目前主要技術(shù)方向包括語(yǔ)音識(shí)別、語(yǔ)音合成、音樂(lè)理解與生成、音頻事件檢測(cè)等。

這樣可以得人才團(tuán)隊(duì)做了許多業(yè)界首創(chuàng)得應(yīng)用。

比如視頻剪輯應(yīng)用快影，借助快手自言得語(yǔ)音識(shí)別技術(shù)，它可以向所有用戶(hù)提供免費(fèi)得視頻自動(dòng)加字幕功能。

還有快手音悅臺(tái)，利用算法從主播得過(guò)程中自動(dòng)剪輯、篩選精彩得唱歌片段，制作成為歌唱精選內(nèi)容，這樣，音樂(lè)主播就無(wú)需手動(dòng)整理素材剪輯就有現(xiàn)成可發(fā)布得內(nèi)容，而喜歡音樂(lè)得用戶(hù)也有了觀看精彩內(nèi)容得入口。

領(lǐng)域一向競(jìng)爭(zhēng)激烈，小快得出現(xiàn)，想必是對(duì)用戶(hù)體驗(yàn)和平臺(tái)粘性得進(jìn)一步提升。

而在快手先行之后，語(yǔ)音機(jī)器人或許會(huì)是界得一股新風(fēng)潮。

傳送門(mén)

最后，小快智能寵物用到得不少技術(shù)，快手已經(jīng)公開(kāi)發(fā)表，為大家傳送論文如下：

The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition

自注意力機(jī)制得語(yǔ)音識(shí)別

：Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li

ieeexplore.ieee.org/document/8682586

Gated Recurrent Unit based Acoustic Modeling with Future Context

基于門(mén)控循環(huán)單元得聲學(xué)建模

：Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li

arxiv.org/abs/1805.07024

Automatic Singing evaluation without Reference Melody Using Bi-dense Neural Network

使用雙密度神經(jīng)網(wǎng)絡(luò)得無(wú)參考旋律得自動(dòng)歌唱評(píng)估

：Ning Zhang, Tao Jiang, Feng Deng, Yan Li

ieeexplore.ieee.org/document/8682665

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

我們，第壹時(shí)間獲知前沿科技動(dòng)態(tài)

• 提供景德鎮(zhèn)菱王LTK乘客電梯	• 提供景德鎮(zhèn)菱王MLVEL-RMR乘客電梯
• 提供景德鎮(zhèn)菱王LTHW別墅電梯	• 提供景德鎮(zhèn)康力KLJ別墅電梯
• 提供景德鎮(zhèn)日立VGE別墅電梯	• 請(qǐng)問(wèn)舟醫(yī)生_痔瘡和結(jié)直腸癌便血有何區(qū)別
• 益聯(lián)醫(yī)學(xué)嬰兒梗塞模型	• 益聯(lián)醫(yī)學(xué)全功能嬰兒高級(jí)模擬人
• 咽喉檢查練習(xí)模型咽喉檢查項(xiàng)目	• 經(jīng)鼻氣管插管訓(xùn)練模型拔管操作方法

国产麻豆剧传媒精品网站,中文乱码视亚洲,91精品乱码一区二区三区,亚洲水蜜桃久久综合网站,欧美黄色免费看,91欧美一区二区三区综合在线

VIP

推廣服務(wù)

快手在直播間里養(yǎng)起了AI寵物_連柳巖_大鵬都愛(ài)