重生的我做空半岛 - 第二百五十六章|人比机器更贵 (4.6k)

上一章 目录 下一章
    曹逸森站在那堆机器前,盯著nvicore的標识看了一会儿,忽然开口:
    “硬体我们有了。”
    麦克转头看他:“然后呢?”
    “软体反而不是最大的问题了。”
    麦克一听这句,眼皮跳了一下。他已经很熟悉曹逸森的说话逻辑了。
    一般他说“不是问题”的时候,意思往往不是这事很简单,而是这事会很贵、很麻烦、但他已经决定要干。
    “你先等一下。”麦克抬手,“我有不好的预感。”
    曹逸森没理他,继续说:“2021年的ai软体生態,还很原始。不是说没有东西,而是太割裂。研究论文有,开源模型有,实验项目也有,但真正能把它们真正做成產业工具的人,太少了。”
    他说著,伸手在空气里比了个框。
    “我们要做的不是一个玩具。”
    “我要的是k-pop界的ai大脑。”
    麦克沉默两秒。
    “你刚才还说自己不是反派。”
    “这是產品愿景。”
    “听起来像什么反派產品愿景。”
    “隨你怎么理解。”曹逸森转头看他,“总之,机器只是基底,真正值钱的是人。”
    麦克一脸警惕:“你又看上谁了?”
    “不是谁,是三类人。”
    曹逸森往旁边走了几步,隨手拿起一支油性笔,在仓库临时白板上写下三个词。
    architecture(结构)。
    visual(视觉)。
    audio(音频)。
    麦克看著白板,表情一点点严肃起来。
    他知道,曹逸森这次不是隨便脑洞。
    这是要真开始组个ai团队了。
    ——————————————
    第一类,深度学习架构师。
    曹逸森在白板第一栏下面写下:
    transformer /音乐生成模型/多模態规划
    “2021年,大模型还在萌芽阶段。gpt-3已经出来了,但它还没有变成普通人手里的对话工具。大眾还不知道以后会发生什么,很多工程师也还停留在论文、实验室、api演示的阶段。”
    麦克点了点头。
    “所以你要从closeai或者deepmind挖人?”
    “对。”曹逸森说,“不一定要最顶层那几个名字,我们也挖不动。我要的是那种真正懂transformer架构、懂模型训练、同时愿意把东西落地到垂直產业的人。”
    他敲了敲白板。
    “我不需要他给我写一个聊天机器人。”
    “我需要他把模型微调成k-pop策划专家。”
    麦克一愣。
    “k-pop策划专家?”
    “对。”曹逸森眼神亮了起来,“输入艺人资料、练习生训练数据、过往舞台反馈、粉丝评论、音乐榜单、短视频传播数据,它能给出方向建议。”
    “比如:这个练习生適合走清冷视觉,还是邻家现实感。这个团该先发概念照,还是先发练习室视频。某首demo適合哪个成员开头,哪个成员压副歌。甚至哪一段最適合剪成十五秒短视频。”
    麦克听完,愣了几秒。
    “这听起来不像ai大脑。”
    “那像什么?”
    “像一个不会睡觉、不会加班费、还不会情绪崩溃的企划部总监。”
    “嘿,所以我说它值钱。”
    曹逸森继续写:
    k-pop strategy model(kpop策略大模型)
    “现在別人还在討论语言模型会不会写文章,我们要让它先学会看饭圈、看舞台、看消费情绪。”
    麦克沉默了一会儿,忽然说:“你这个方向,硅谷那帮人未必看得上。”
    “所以要会讲故事。”曹逸森回头看他,嘴角带著一点笑容,“你想像一下,我们直接派私人飞机去旧金山,把那些还在研究早期多模態的工程师接过来。”
    “然后你告诉他——”
    曹逸森清了清嗓子,换了一种很资本、很蛊惑的语气。
    “在硅谷,你只能改变代码。”
    “在我的公司,你可以定义全球年轻人的审美。”
    麦克看著他,沉默了几秒。
    “……你这个人真的很適合当什么邪教头子。”
    “这是招聘话术。”
    “这比招聘话术危险多了。”
    “但会很有效的。”
    麦克想了想,竟然没法反驳。
    因为对很多真正有野心的工程师来说,钱当然重要,但“我做的东西能改变什么”更重要。你让他去优化gg点击率,他可能觉得无聊。可你告诉他,他能用ai参与塑造下一代全球流行文化,那诱惑力就完全不一样了。
    “行。”麦克嘆了口气,“第一类,深度学习架构师。openai、deepmind,或者相关大模型团队。我要开始找猎头?”
    “猎头、校友、会议名单、github活跃贡献者,全都拉出来。”
    “你真是一点都不客气。”
    “挖人不客气,人才才会觉得你认真。”
    ——————————————
    第二类,gan大神。
    曹逸森在白板第二栏写下:
    stylegan2 /数字人生成/ 4k人脸纹理重建
    麦克一看到gan(generative adversarial network,生成式对抗网络),表情立刻变得微妙起来。
    “你要搞ai换脸?”
    “別说得这么难听。”曹逸森瞥了他一眼,“我要搞视觉生成。”
    “这不就是更贵的说法?”
    “技术上类似,应用上完全不一样。”
    曹逸森把笔帽咬开,又在旁边写了几个词。
    virtual idol(虚擬偶像系统)
    ai skin(ai皮肤生成技术)
    expression rigging(高精度表情绑定)
    aespa-like extension(类aespa虚擬分身扩展架构)
    “2021年,是ai生成人脸和换脸技术特別活跃的阶段。stylegan2这种模型,已经能生成非常有真实感的人脸。很多人在玩deepfake,但那只是低级应用而已。”
    “而k-pop最看重什么?”
    麦克想了想:“歌?”
    曹逸森看他,摇了摇手指。
    麦克改口:“脸。”
    “对,visual。”曹逸森打了个响指说道,“视觉是k-pop的入口。概念照、预告片、mv、舞台镜头、短视频,所有东西都先经过脸和身体。你有一套强大的视觉生成系统,就能在概念阶段快速测试造型、发色、妆容、虚擬形象,甚至做完整的数字分身。”
    麦克皱眉:“你想做虚擬偶像?”
    “不是马上做。”曹逸森说,“但一定要提前准备。”
    “sm已经在aespa那条线上做虚擬延伸了。问题是,大多数公司做出来的虚擬形象,质感很容易变得很假。脸假、皮肤假、表情假,动起来更假。粉丝一眼就能看穿。”
    他看著麦克,语气变得更认真。
    “我要的是在4k镜头下也不穿帮的ai皮肤和表情纹理。”
    “虚擬偶像能在练习室里和真人一起跳舞。”
    “她不一定要完全替代真人,但她可以成为mv、ar舞台、短视频挑战、粉丝互动里的第二层角色。”
    麦克听得慢慢坐直了。
    “这就不只是娱乐公司了。”
    “对。”曹逸森点头,“这是虚擬內容资產。”
    他继续说:“这类人,可以从nvicore內部、斯坦福、cmu、甚至一些做图形学和视觉ai的实验室挖。不要只找会调包的人,要找真的理解生成模型、渲染、表情捕捉和视觉美学的人。”
    麦克看著白板。
    “这类人才会很贵。”
    “便宜的人做不出好的东西的。”
    “你还真是要么不做,要做就往烧钱方向做。”
    曹逸森笑了笑。
    “因为半吊子的虚擬偶像,会显得很蠢。”
    “而一旦显得蠢,就不如不做。”
    麦克点点头:“这句我同意。”
    ——————————————
    第三类,音频信號处理专家。
    曹逸森在第三栏下面写下:
    dsp(数位讯號处理)
    source separation(声源分离)
    voice cloning(语音克隆)
    real-time vocal demo(实时声乐demo生成)
    这一次,麦克立刻明白了。
    “这个和k-pop最直接。”
    “对。”曹逸森说,“视觉能让人点进来,音频才能让人留下。”
    他把笔放下,语气放缓了一点。
    “2021年的音频ai还没那么成熟。spleeter这种伴奏分离工具已经有了,但还是粗糙,分离质量、实时性、可控性都不够。语音克隆也在发展,可真正能用於音乐製作,尤其是高质量歌唱声线的系统,还远远不够。”
    “所以我们要从spotify、ircam、dolby、或者做音乐信息检索、语音合成的人里挖。”
    “核心任务有三个。”
    他竖起一根手指。
    “第一,伴奏和人声分离。”
    “练习室、live、舞台、综艺、饭拍,只要音频质量够,它就能把人声、伴奏、观眾噪音拆开。以后我们做舞台復盘、live修復、短视频剪辑,效率会高很多。”
    第二根手指。
    “第二,艺人声线建模。”
    麦克挑眉:“这个会有点敏感啊。”
    “所以一定要在內部做,且有严格授权。”曹逸森说,“不是拿来偽造艺人声音,而是拿来做demo预览。”
    “比如製作人写了一段副歌,不用每次都叫艺人进棚试唱。输入歌词和旋律,系统先用艺人的声线生成demo。製作人听完,判断適不適合这个成员,再决定要不要安排正式录音。”
    “这样能省多少时间,你知道吗?”
    麦克没说话。
    他当然知道。
    如果一个团有五六个成员,每个人声线不同,製作人光试分part就能耗掉大量时间。ai先生成草案,不是替代艺人,而是让製作环节变快。
    第三根手指。
    “第三,实时修復和应急合成。”
    麦克看著他:“你是不是要说艺人感冒失声,也能用ai上台?”
    “正式现场不行。”曹逸森摇头,“那是找死。”
    麦克鬆了口气。
    “但后台demo、彩排、电视台预录参考、临时替代guide vocal,可以。”
    “比如艺人感冒失声,製作人还得赶某个版本。dsp专家在后台敲几行python,调用本地伺服器,根据授权声线模型生成足够逼真的高音demo。不是拿去骗粉丝,是拿去让製作流程不中断。”
    曹逸森顿了一下,又笑著补了一句:
    “当然,如果质量能做到足以骗过格莱美评委,那更好。”
    麦克举手:“这句我建议不要写进招聘邮件。”
    “我知道。”
    “也不要写进商业计划书。”
    “我没那么蠢。”
    麦克一脸怀疑地看著他。
    曹逸森懒得理他,继续道:“这类dsp专家,是最先要落地的。因为音频是我们最直接的业务。hzn也好,cube也好,田小娟也好,都立刻能用。”
    麦克点头。
    “这个我支持优先招。”
    白板上很快写满了东西。
    深度学习架构师。
    gan视觉大神。
    dsp音频专家。
    几条线摆出来以后,仓库里那几台dgx a100的意义也清晰了。
    它们不是买来摆著嚇人的。它们是给这些人准备的武器。
    麦克站在白板前,看了很久,最后低声说:
    “这团队要是组起来,成本会非常夸张。”
    曹逸森点头。
    “我知道。”
    “closeai、nvicore、斯坦福……这些地方的人,一个比一个贵。你不只要开高薪,还得给他们项目自由、股权、实验预算,甚至还要给他们一种『我不是来娱乐公司修音的,我是在定义新產业』的幻觉。”
    “不是幻觉。”曹逸森纠正,“是真实的项目。”
    麦克看著他,揉了揉太阳穴。
    曹逸森指了指白板,又指了指那台dgx a100。
    “你想想,我们现在手里有什么。”
    “纽约,有unity的钱。”
    “首尔,有hzn的厂牌,有cube的运营权,有田小娟这种创作者,有gidle这种ip,有练习生,有舞台,有真实產业场景。”
    “洛杉磯,有机器,有工程师,有和美国音乐圈、科技圈连接的入口。”
    “硅谷那些ai团队,很多人最缺什么?”
    “真实场景。”
    “他们有论文,有模型,有benchmark,但没有一个能让他们立刻看见自己技术如何影响真实偶像、真实粉丝、真实舞台、真实商业回报的地方。”
    曹逸森看著麦克,声音越来越稳。
    “这个我们能给他们。”
    “也能给他们数据,给他们舞台,给他们艺人,给他们反馈闭环。”
    “他们在別的地方只能做工具。”
    “在我们这里,他们能做整个系统。”
    麦克沉默了。
    他不得不承认,这套话术如果真拿出去讲ppt,確实会很有杀伤力。
    尤其对於那些不想一辈子待在大厂里优化推荐系统、ggctr、內部api性能的工程师来说,这简直就是另一个世界。
    一个更混乱、更商业、更冒险,但也更有故事感的世界。
    过了好一会儿,麦克才开口:
    “你知道最可怕的是什么吗?”
    “什么?”
    “我一开始觉得你疯了。”
    “现在我居然觉得,这事可能真能成。”
    曹逸森笑了。
    “那说明你开始进入状態了。”
    “我不是进状態,我是被你拖下水了。”
    “区別不大。”
    麦克嘆了口气,拿出手机开始记。
    “行。第一步,我联繫猎头和湾区的人。closeai和deepmind直接挖可能很难,但可以先找离职边缘、合同快到期、或者想创业的人。”
    “第二步,视觉这块我从nvicore和斯坦福那边摸线。”
    “第三步,dsp这块我去spotify和纽约音乐科技圈问。ircam那边我得找找欧洲关係。”
    曹逸森点头。
    “別只用钱砸。”
    “知道。”麦克说,“用愿景砸。”
    “还有股权。”
    “你终於说到他们真正爱听的了。”
    曹逸森笑了一下。
    “愿景负责让他们上飞机,股权负责让他们留下来。”
    麦克看著他,半天吐出一句:
    “你真的越来越像老板了。”
    “我本来就是。”
    “以前你更像天才交易员。”
    “现在呢?”
    麦克看了眼白板,又看了眼那台dgx a100,最后说:
    “现在像一个准备把整个娱乐圈拆开重装的疯子。”
    曹逸森没有反驳。
    他只是转身看著仓库里那几只还没拆封的箱子,眼神里那点兴奋慢慢沉成了更深的东西。
    “拆开重装也没什么不好。”
    “韩娱这套系统,太依赖人肉经验了。”
    “谁更会熬夜,谁资源多,谁关係硬,谁能压榨团队,谁就贏。”
    “我想换一种玩法。”
    麦克问:“用ai?”
    曹逸森点头。
    “用ai,把经验变成系统。”
    “用算力,把小公司的试错成本打下来。”
    “用模型,把创作、训练、宣发、视觉、发行,全都往前推一格。”
    他说完,轻轻拍了一下那台dgx a100。
    “先从这几台机器开始。”

添加书签

搜索的提交是按输入法界面上的确定/提交/前进键的
上一章 目录 下一章