对话 Hedra 创始人 Michael Lingelbach:生成式视频如何借力 Meme 催生下一个风口

互联网 阅读 24 2025-08-18 22:30:07

原文标题:Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra’s Michael Lingelbach

主持人:Justine MooreMatt Bornsteina16z

嘉宾:Michael Lingelbach

整理&编译:JannaChainCatcher

 

编者按

Michael LingelbachHedra的创始人兼首席执行官,他曾是斯坦福大学计算机科学博士生,也曾是一名舞台演员,结合技术与表演热情,带领Hedra开发出业内领先的生成式音视频模型。Hedra是一家专注于全身体现、对话驱动视频生成的公司,其技术支持从虚拟影响者到教育内容的广泛应用,显著降低了内容创作门槛。本文编译自a16z播客,聚焦AI技术如何从病毒式Meme内容跨越到企业级应用,展现生成式音视频技术的革新潜力。

以下为对话内容,由 ChainCatcher 编译整理(有删减)。

TL&DR

  • 人工智能正无缝衔接消费与企业场景,例如此技术生成婴儿广告推广企业软件,凸显企业拥抱新技术的热忱。
  • 病毒式迷因内容成为初创企业利器,如“婴儿播客”迅速提升品牌知名度,展现市场策略的巧妙。
  • 全身表情与对话驱动的视频生成技术填补创作空白,极大降低内容制作的时间与成本。
  • 虚拟影响者如John Lawa通过“摩西播客”塑造独特数字角色,赋予内容鲜明个性与吸引力。
  • 内容创作者如“妈妈博主”借助技术快速产出视频,轻松维持品牌活跃度与观众连接。
  • 实时交互视频模型开启与虚拟角色的双向对话,为教育和娱乐带来沉浸式体验。
  • 以角色为核心的视频生成技术注重个性表达与多主体控制,满足动态内容创作需求。
  • 整合对话、动作与渲染的平台战略,打造流畅的生成式媒体体验,迎合高质量内容需求。
  • 交互式头像模型支持动态调整视频情感与元素,预示内容创作的下一波革新。

(一)Meme 到企业应用的 AI 融合

Justine:我们看到AI在消费场景与企业场景之间的交叉应用非常有趣。几天前,我在《福布斯》上看到一则由Hedra生成的广告文本,内容竟然是一个会说话的婴儿在推广企业软件。但这也说明我们正处在一个新时代,企业正在快速拥抱AI技术,展现出极大的热情。

Michael:作为初创公司,我们的职责是从消费者用户的使用信号中汲取灵感,将其转化为企业用户可以依赖的下一代内容生产工具。过去几个月,Hedra生成的一些病毒式内容引发了广泛关注,从早期的动漫风格角色到“婴儿播客”,再到本周的热门趋势——我其实也不确定是什么。Meme是一种非常有效的市场策略,通过触达大量受众迅速占领用户心智。这种策略在初创公司中越来越普遍。例如,a16z投资的另一家公司Cluey就通过Twitter的病毒式传播获得了显著的品牌认知度。Meme的本质是技术赋予人们快速发挥创意的载体,短视频内容已主导文化意识。Hedra的生成式视频技术让用户能在几秒钟内将任何创意转化为内容。

(二)创作者与影响者为何选择 Hedra

Justine:请解释一下为什么人们用Hedra制作Meme,以及他们如何使用它,这与你目标市场的联系是什么?

MichaelHedra是首家大规模部署全身表达式、对话驱动的生成视频模型的公司。我们支持用户创作了数以百万计的内容,之所以能迅速流行,是因为我们填补了内容创作技术栈中的关键空白。此前,制作生成式播客、动画角色对话场景或歌唱视频非常困难,要么成本高昂,要么缺乏灵活性,要么耗时过长。我们的模型快速且成本低廉,因此催生了虚拟影响者的崛起。

Justine:近期,CNBC发表了一篇关于Hedra驱动的虚拟影响者的文章。能否举几个具体例子,说明影响者如何使用Hedra

Michael:比如,著名演员John Lawa(《The League》中Taco的扮演者)利用Hedra创作了从“摩西播客”到“婴儿播客”的系列内容,这些角色如今拥有独特的身份。另一个例子是Neural Viz,他们基于Hedra打造了一个以角色身份为核心的“元宇宙”。生成式表演与单纯的媒体模型不同,它需要在模型中注入个性、一致性和控制力,这对视频表现尤为重要。因此,我们看到这些虚拟角色的独特个性开始流行,尽管它们并非真实人物。

(三)虚拟影响者与数字化身

Matt:我在Instagram Reels上看到很多Hedra视频,既有像Neural Viz系列中的外星人这样全新创作的角色——过去只有好莱坞大制作才能实现,也有真实人物利用这些工具扩展自己的数字存在。许多影响者或内容创作者不想每次都精心打扮、调整灯光或化妆。Hedra让像“妈妈博主”这样的人群能快速生成视频传达信息,而无需花费大量时间准备。例如,他们可以直接用Hedra生成与相机对谈的内容。

Michael:这是一个很重要的观察。维护个人品牌对内容创作者来说至关重要,但保持全天候在线非常困难。如果创作者暂停更新一周,可能会流失粉丝。Hedra的自动化技术极大降低了创作门槛。用户结合像Deep Research这样的工具生成脚本,再通过Hedra生成音视频内容,并自动发布到他们的频道。我们看到越来越多围绕自主数字身份的工作流,不仅服务于真实人物,也包括完全虚构的角色。

(四)交互式视频的潜力与挑战

Justine:现在很多历史视频在Reels上流行。过去,我们通过阅读历史书获取知识,但这有些枯燥。如果能通过角色讲述历史并展示生成式视频场景,体验会更加引人入胜。

Michael:虽然我们不直接针对教育领域,但许多教育公司基于我们的API开发应用。视频交互的参与度远高于文字。我们近期推出了实时交互视频模型,这是首款实现低延迟音视频体验的产品。从语言学习到个人提升应用,当技术成本足够低时,将彻底改变用户与大语言模型(LLM)的交互方式。我个人最喜欢的项目是“与你最爱的书或电影角色聊天”。比如,你可以问:“为什么明知有凶手你还走进那个黑暗房间?”这种交互式体验比传统有声书更丰富,因为用户可以提出问题、回溯内容,体验更加生动。

Justine:视频模型的搜索空间非常大。单帧图像生成已经很复杂,但生成120帧的连续视频更具挑战性。Hedra聚焦于一个独特且有意义的问题,与其他视频模型有所不同。请描述一下这个问题的定义以及你的灵感来源。

Michael:这是一个很好的问题。我们看到基础模型层出现了专业化分工,就像Claude成为编程模型的标杆,Open AI提供通用助手,Gemini因成本效益和速度服务于企业场景。Hedra在视频模型领域也有类似定位。我们的基础模型性能很高,尤其是下一代模型,提供了内容创作的极大灵活性。但我们更关注如何让内容“活起来”,让用户愿意与之互动,感受到一致的个性和吸引力。核心在于如何将视频中角色的智能与渲染体验结合。我的愿景是用户能与视频中的角色双向沟通,角色拥有可编程的独特个性。这需要垂直整合,不仅优化核心模型,还要重新思考用户交互的未来体验。

(五)“以角色为中心”的视频模型与主体控制

Michael:我来自戏剧背景,虽然不是专业演员,但对角色表演充满热情。视频是我们日常互动的核心,无论是广告、在线课程还是Hedra驱动的无面频道,连接感至关重要。我们通过降低创作门槛、加快速度,让普通用户也能轻松生成内容。未来,模型的智能与渲染界限将逐渐模糊,用户将与理解其意图的系统对话。我们将角色视为控制的核心单元,而不仅仅是视频。这需要收集用户反馈,优化角色真实感和表现力,同时提供针对多主体的控制杠杆。

Matt:我花了很多时间为不同视频创建角色,Hedra的强大之处在于集成的角色创作工具。你可以创建或上传角色形象,保存以供后续使用,甚至转换语境或克隆声音。我的YouTube视频和教程的许多开场白都使用了Hedra克隆的我的声音。这种一体化体验在碎片化的生成式媒体市场中尤为珍贵。

(六)打造一体化生成式媒体平台

Justine:许多公司如Black Forest Labs在技术上取得突破,但仍需像Hedra这样的伙伴将体验传递给消费者和企业用户。你如何决定打造一个一体化平台,而不局限于某一技术?

Michael:这关乎专注与用户需求。我创立Hedra时,发现将对话融入媒体非常困难。过去,用户制作短视频需要叠加唇同步,缺乏整体感。我们的技术灵感是将呼吸、手势等信号与对话统一,打造更自然的视频模型。从市场角度看,我们观察到用户对不同应用的付费意愿差异。一些热门应用可能付费意愿低,但某些细分领域(如内容创作者)对高质量体验有强烈需求。我们选择整合最佳技术,无论是Hedra的还是伙伴如11 Labs的,确保用户获得最佳体验。

Matt:未来,AI角色会由单一模型生成文本、脚本、语音和视觉吗?

Michael:我认为行业正迈向多模态输入输出范式。单一模型的挑战在于控制力。用户需要精确调整语音、音调或节奏等细节。解耦输入能提供更多控制,但未来可能趋向全模态模型,用户可通过引导信号调整各模态的贴合度。

(七)交互式视频的未来

JustineHedra的长视频生成能力让我印象深刻。你可以上传几分钟音频,生成角色对话视频,分别调整形象和声音,避免一次性生成浪费资源。这种控制力让我对交互式视频的未来充满期待。

Michael:我们刚推出的交互式头像模型让我兴奋。未来,用户能像在流体画布上一样塑造视频元素,例如暂停视频并要求角色在某段话中更悲伤。这种双向沟通将带来下一代体验,很快就会实现。

Matt:真正的AI演员可能吗?用户实时与创建的角色互动,并给予指令。

Michael:绝对可能。但目前限制不在视频模型,而在大语言模型的个性真实感上。现有的AI伴侣(如Character AI)仍带有明显的模型痕迹。要实现真正交互式数字角色,还需在可配置个性上投入更多研究。

(八)Hedra 的音频生成与 AI 原生应用

JustineHedra的视频令人惊叹,但音频有时稍逊。11 Labs的最新模型提升了音频质量,但内容吸引力仍需改进。

Michael:音频生成是一个未充分探索的领域。当前生成式语音多用于旁白或配音,但像在嘈杂咖啡馆中生成自然对话的场景仍具挑战性。我们需要能控制环境音、多轮对话的音频模型,以提升视频创作的自然度。视频AI仍处于早期阶段。就像早期CGI特效看似逼真,如今看来却像卡通。我们的第一代模型曾让我惊叹,但现在看来已显粗糙。实现超可控、成本效益高、实时性能强的模型仍需努力。

Matt:用户会更喜欢与真实人类、拟真人类还是卡通角色互动?

Michael:我们生成了很多毛茸茸的小球和猫咪角色。Hedra的统一模型能处理各种角色,无论是石头还是机器人,让用户自由实验,创造前所未有的内容。我们打造统一模型,而非传统视频加唇同步,是为了避免用户受限于技术。用户可以尝试“会说话的石头”或“机器人与人的播客”,模型能自动处理对话和个性。这种灵活性激发了革命性的消费场景。

JustineAI的交叉应用令人兴奋。消费者创造像“婴儿播客”这样的内容,启发企业应用。我在《福布斯》看到Hedra生成的婴儿广告推广企业软件,令人惊讶。这说明企业正快速拥抱AI,我们需要将消费者信号转化为企业级解决方案。

Michael:企业是我们增长最快的领域。生成式AI让内容创作从数周缩短到实时。例如,自动新闻主播正改变信息传播方式。过去,地方新闻因成本高昂而消失,但现在一人即可运营新闻频道。这种“中等规模个性化”满足了特定人群的需求,如地方美食或主题公园的精准广告,比过度个性化的Google模型更有效。

(九)创始人之路:挑战、热情与协同创新

Justine:作为创始人,你的经历如何?有哪些挑战和收获?

Michael:在旧金山,创始人生活常被美化,像是构建划时代技术的浪漫旅程。我来自佛罗里达小镇,从未想过会走这条路。但做创始人99%的时间都很艰难。你必须不断推动,问题从不减少——从隐形开发到面对海量支持邮件。身体上很疲惫,但内在满足感无与伦比。我爱我的用户和团队,无法想象做其他事。这是一种“第二类乐趣”——像攀登雪山,手脚受伤,但到达山顶后仍想再来。我每天早7:30进办公室,晚10点离开,有时凌晨2点还在讨论功能。这需要放弃工作与生活的界限,但热爱让我坚持。

Matt:你为何仍亲自编程?是表达创意还是与团队沟通?

Michael:两者都有。原型帮助我快速验证想法并明确传达预期。作为领导者,清晰沟通至关重要。我会与设计师讨论边界情况,确保系统可扩展。编程让我保持与团队的连接,了解他们的挑战,同时快速探索产品方向。

 

点击了解ChainCatcher在招岗位

 

推荐阅读:

a16z 加密营销指南:从 0 到 100,创始人该做什么?

a16z:Crypto 与 AI 融合的 11 个应用场景

免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场
上一篇:Camp Nigeria 社区拉各斯孤儿院公益行动全记录 下一篇:Strategy 的「登月」计划

您可能感兴趣