中国股市杠杆 广州隐藏了一家AI巨头!3秒音频样本,超逼真声音克隆

发布日期:2024-12-24 23:18    点击次数:102


中国股市杠杆 广州隐藏了一家AI巨头!3秒音频样本,超逼真声音克隆

为证券之星据公开信息整理,由智能算法生成,不构成投资建议。

2024年10月,趣丸科技与香港中文大学(深圳)联合开源了MaskGCT语音大模型,这是一个在语音克隆和多语种合成领域具有突破性的技术成果。

该模型仅需3秒音频样本即可实现超逼真的声音克隆,并精通中英日韩法德六种语言的跨语种合成,在语音相似度方面处于全球领先地位。

这一开源项目的发布,不仅展现了趣丸科技在AI技术领域的研发实力,也标志着这家创立于2014年的互联网科技公司,正在向AI科技公司加速转型。

1、研发背景

趣丸科技成立于2014年,是一家集兴趣社交、人工智能、电子竞技等业务于一体的创新型科技企业,公司的明星产品——TT语音,累计注册用户已突破2亿。

随着游戏市场竞争加剧,趣丸科技在深耕社交兴趣的同时,也在积极寻找新的增长点。

凭借趣丸科技在音乐、音频领域多年的深耕,公司陆续逐渐加大AI领域的布局,目前已构建全栈式AI交互技术产业生态,从自研垂类大模型到应用落地均取得初步成果。

2023年开始,公司陆续与香港科技大学(广州)、香港中文大学(深圳)等顶尖学府共建人工智能联合实验室,正式布局AI领域。

2024年7月,公司推出全球领先的多模态生成大模型——天谱乐,开启了AI音乐创作的新篇章。

天谱乐的研发背景源于市场的迫切需求——随着AI技术的发展,特别是在海外AI音乐创作平台Suno引发热潮后,中国音乐生成大模型市场迎来发展机遇。

传统音乐创作门槛高,需要专业知识和技术积累,加之中国庞大的短视频市场对优质配乐的持续需求,为AI音乐生成带来了广阔的商业前景。

趣丸科技认为,探索和创造更多用户真正需要的产品,以及可落地的商业化场景,将是推动音乐大模型持续进化的基石和未来。

而天谱乐自发布之初就全面接入公司旗下的唱鸭App,向所有用户开放。

作为一款多模态配乐大模型,天谱乐集成了图像理解算法、旋律生成算法、视频理解算法、配器识别算法等技术,除了文生音乐、音频生音乐之外,天谱乐还支持图片、视频生成音乐功能,使用者只需上传一张图片或一段不超过60秒的视频,即可生成与画面高度适配的带人声唱词的完整歌曲,是当时行业首个推出此功能的国产AI音乐产品。

天谱乐的推出不仅是趣丸科技在AI领域的重要布局,更是对中国AI音乐市场的一次有益探索。通过与高校合作、技术创新以及商业场景落地,趣丸科技正在为降低音乐创作门槛、推动AI音乐产业发展贡献自己的力量。

2、主要产品和业务

广州趣丸网络科技有限公司是一家集兴趣社交、人工智能、电子竞技等业务于一体的创新型科技企业,其主要产品和业务如下:

(1)兴趣社交

TT 语音

这是趣丸科技的拳头产品,也是国内领先的兴趣社交平台,于 2014 年底发布。

为玩家提供组队开黑、队友匹配、电子竞技等多种娱乐互动服务,累计注册用户已超 2 亿,并且是英雄联盟职业联赛(LPL)、王者荣耀职业联赛(KPL)、和平精英职业联赛(PEL)等五大头部电竞职业赛事官方合作伙伴。

(2)电子竞技

TT 电竞

2019 年成立的 TT 电竞已构建起以电竞俱乐部、电竞赛事、电竞教育等多业务协同的立体生态,拥有英雄联盟分部、王者荣耀分部、英雄联盟手游分部及和平精英分部,是广州首家实现双战队地域冠名以及华南区唯一拥有四大顶级电竞职业联赛席位的俱乐部。

(3)人工智能

趣丸趣影

一站式数字人创作平台,可通过定制化、0 样本等模式快速生成高逼真、高自然度的数字人,1:1 还原真人神态实现沉浸式互动,赋能千行百业,助力产业链的发展。

趣丸万相

面向未来的 3D 生成平台,支持文字、图片、视频多模态输入,秒级生成三维模型,以低成本产出高质量可编辑模型,可输出超写实、卡通风格等多种三维模型风格。

趣丸千音

多语种速译智能视听平台,自研生成式音频大模型,可实现一键转译多语种、高自然度语音合成,革新翻译制作流程,大幅降低昂贵的人工翻译成本和冗长的制作周期。

趣丸知了

高自然度沉浸式交互系统,集多模态互动、智能问答、多场景支持、专业知识库、检索增强、大语言模型等技术于一体的智能客服解决方案,软硬一体化结合,为用户带来智能沉浸式交互体验。

唱鸭

新一代 AI + 大众应用型音乐创作平台,基于弹唱的音乐社区,帮助普通人降低 「玩音乐」 的门槛,且入选 2022 年文化和旅游数字化创新实践十佳案例。

(4)AI语音技术

MaskGCT 语音大模型

MaskGCT 语音大模型是由趣丸科技与香港中文大学(深圳)联合研发,已于 2024 年 10 月 24 日在 Amphion 系统中开源。

MaskGCT 采用掩码生成模型与语音表征解耦编码的创新范式,是一个大规模的零样本 TTS 模型,无需文本与语音的对齐监督和音素级持续时间预测。

这一技术突破使得模型在语音质量、相似度和可理解性方面表现优异,并且在模型规模和训练数据量增加时,性能还会进一步提升,同时能够控制生成语音的总时长。

其主要特点如下:

秒级超逼真的声音克隆:只需提供 3 秒音频样本,MaskGCT 即可复刻人类、动漫、「耳边细语」等任意音色,并且能够完整复刻语调、风格和情感,克隆效果达到了极高的逼真度;

更精细可控的语音生成:该模型可灵活调整生成语音的长度、语速和情绪,还支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致,为语音生成提供了更精细的控制和更高的灵活性;

高质量多语种语音数据集:MaskGCT 训练于香港中文大学(深圳)和趣丸科技等机构联合推出的 10 万小时数据集 Emilia,这是全球最大且最为多样的高质量多语种语音数据集之一,使模型能够精通中英日韩法德 6 种语言的跨语种合成;

模型性能表现:MaskGCT 在三个 TTS 基准数据集上都达到了 SOTA 效果,超过当前最先进的同类模型,在语音的相似度、质量和稳定性上也有进一步突破,尤其在语音相似度方面处于绝对领先地位。

目前,MaskGCT 在短剧出海、数字人、智能助手、有声读物、辅助教育等多个领域拥有丰富的应用场景。

为加快落地应用,趣丸科技还打造了多语种速译智能视听平台 「趣丸千音」,通过该平台,用户一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能,革新了视频翻译制作流程,大幅降低了人工翻译成本和制作周期。

3、小结

从移动互联网到人工智能,到如今布局AI音乐创作领域,趣丸科技始终紧跟技术发展前沿,积极寻找新的增长机会。

未来,随着AI技术的持续进步和短视频市场对优质配乐需求的不断增长,天谱乐有望在音乐创作技术平权的进程中发挥更大作用。对趣丸科技而言中国股市杠杆,这不仅是一次转型升级的机遇,更是实现企业可持续发展的新起点。




Powered by 实盘股票正规配资公司_实盘股票配资公司配资_实盘股票配资公司平台 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2009-2029 联华证券 版权所有