发布日期:2024-10-29 07:35 点击次数:89
10月24日,趣丸科技晓谕与香港汉文大学(深圳)纠合研发的语音大模子“MaskGCT”崇拜在Amphion系统中开源,面向各人用户通达使用。远隔于传统TTS模子,该模子经受掩码生成模子与语音表征解耦编码的鼎新范式,在声息克隆、跨语种合成、语音摈弃等任务中展现出超卓收尾。
贵寓知道,MaskGCT(Masked Generative Codec Transformer)是一个大限制的零样本TTS模子,经受非自精致掩码生成Transformer,无需文本与语音的对皆监督和音素级合手续时辰展望。其技能冲破性在于经受掩码生成模子与语音表征解耦编码的鼎新范式。履行标明,MaskGCT在语音质地、不异度和可交融性方面优于面前首先进的TTS模子,何况在模子限制和查考数据量加多时进展更佳,同期粗略摈弃生谚语音的总时长。MaskGCT已在香港汉文大学(深圳)与上海东说念主工智能履行室纠合开采的开源系统Amphion发布。
趣丸科技方面暗示,相较于现存的TTS大模子,MaskGCT在语音的不异度、质地和踏实性上进一步冲破,尤其在语音不异度方面处于开始水平。据先容,MaskGCT在三个TTS基准数据集上都达到了SOTA收尾,向上头前首先进的同类模子。
现在,MaskGCT在短剧出海、数字东说念主、智能助手、有声读物、缓助教练等规模领有丰富的愚弄场景。为了加速落地愚弄,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版块,并竣事字幕缔造与翻译、语音翻译、唇音同步等功能。该产物进一步修订视频翻译制作历程,大幅镌汰过往欣慰的东说念主工翻译资本和冗长的制作周期,成为影视、游戏、短剧等骨子出海的理思平台。
南边+记者 叶丹