对话 Hedra 创始人 Michael Lingelbach：生成式视频如何借力 Meme 催生下一个风口

互联网阅读 24 2025-08-18 22:30:07

原文标题：Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra’s Michael Lingelbach

主持人：Justine Moore，Matt Bornstein，a16z

嘉宾：Michael Lingelbach

整理&编译：Janna，ChainCatcher

编者按

Michael Lingelbach是Hedra的创始人兼首席执行官，他曾是斯坦福大学计算机科学博士生，也曾是一名舞台演员，结合技术与表演热情，带领Hedra开发出业内领先的生成式音视频模型。Hedra是一家专注于全身体现、对话驱动视频生成的公司，其技术支持从虚拟影响者到教育内容的广泛应用，显著降低了内容创作门槛。本文编译自a16z播客，聚焦AI技术如何从病毒式Meme内容跨越到企业级应用，展现生成式音视频技术的革新潜力。

以下为对话内容，由 ChainCatcher 编译整理（有删减）。

TL&DR

人工智能正无缝衔接消费与企业场景，例如此技术生成婴儿广告推广企业软件，凸显企业拥抱新技术的热忱。
病毒式迷因内容成为初创企业利器，如“婴儿播客”迅速提升品牌知名度，展现市场策略的巧妙。
全身表情与对话驱动的视频生成技术填补创作空白，极大降低内容制作的时间与成本。
虚拟影响者如John Lawa通过“摩西播客”塑造独特数字角色，赋予内容鲜明个性与吸引力。
内容创作者如“妈妈博主”借助技术快速产出视频，轻松维持品牌活跃度与观众连接。
实时交互视频模型开启与虚拟角色的双向对话，为教育和娱乐带来沉浸式体验。
以角色为核心的视频生成技术注重个性表达与多主体控制，满足动态内容创作需求。
整合对话、动作与渲染的平台战略，打造流畅的生成式媒体体验，迎合高质量内容需求。
交互式头像模型支持动态调整视频情感与元素，预示内容创作的下一波革新。

（一）从 Meme 到企业应用的 AI 融合

Justine：我们看到AI在消费场景与企业场景之间的交叉应用非常有趣。几天前，我在《福布斯》上看到一则由Hedra生成的广告文本，内容竟然是一个会说话的婴儿在推广企业软件。但这也说明我们正处在一个新时代，企业正在快速拥抱AI技术，展现出极大的热情。

Michael：作为初创公司，我们的职责是从消费者用户的使用信号中汲取灵感，将其转化为企业用户可以依赖的下一代内容生产工具。过去几个月，Hedra生成的一些病毒式内容引发了广泛关注，从早期的动漫风格角色到“婴儿播客”，再到本周的热门趋势——我其实也不确定是什么。Meme是一种非常有效的市场策略，通过触达大量受众迅速占领用户心智。这种策略在初创公司中越来越普遍。例如，a16z投资的另一家公司Cluey就通过Twitter的病毒式传播获得了显著的品牌认知度。Meme的本质是技术赋予人们快速发挥创意的载体，短视频内容已主导文化意识。Hedra的生成式视频技术让用户能在几秒钟内将任何创意转化为内容。

（二）创作者与影响者为何选择 Hedra

Justine：请解释一下为什么人们用Hedra制作Meme，以及他们如何使用它，这与你目标市场的联系是什么？

Michael：Hedra是首家大规模部署全身表达式、对话驱动的生成视频模型的公司。我们支持用户创作了数以百万计的内容，之所以能迅速流行，是因为我们填补了内容创作技术栈中的关键空白。此前，制作生成式播客、动画角色对话场景或歌唱视频非常困难，要么成本高昂，要么缺乏灵活性，要么耗时过长。我们的模型快速且成本低廉，因此催生了虚拟影响者的崛起。

Justine：近期，CNBC发表了一篇关于Hedra驱动的虚拟影响者的文章。能否举几个具体例子，说明影响者如何使用Hedra？

Michael：比如，著名演员John Lawa（《The League》中Taco的扮演者）利用Hedra创作了从“摩西播客”到“婴儿播客”的系列内容，这些角色如今拥有独特的身份。另一个例子是Neural Viz，他们基于Hedra打造了一个以角色身份为核心的“元宇宙”。生成式表演与单纯的媒体模型不同，它需要在模型中注入个性、一致性和控制力，这对视频表现尤为重要。因此，我们看到这些虚拟角色的独特个性开始流行，尽管它们并非真实人物。

（三）虚拟影响者与数字化身

Matt：我在Instagram Reels上看到很多Hedra视频，既有像Neural Viz系列中的外星人这样全新创作的角色——过去只有好莱坞大制作才能实现，也有真实人物利用这些工具扩展自己的数字存在。许多影响者或内容创作者不想每次都精心打扮、调整灯光或化妆。Hedra让像“妈妈博主”这样的人群能快速生成视频传达信息，而无需花费大量时间准备。例如，他们可以直接用Hedra生成与相机对谈的内容。

Michael：这是一个很重要的观察。维护个人品牌对内容创作者来说至关重要，但保持全天候在线非常困难。如果创作者暂停更新一周，可能会流失粉丝。Hedra的自动化技术极大降低了创作门槛。用户结合像Deep Research这样的工具生成脚本，再通过Hedra生成音视频内容，并自动发布到他们的频道。我们看到越来越多围绕自主数字身份的工作流，不仅服务于真实人物，也包括完全虚构的角色。

（四）交互式视频的潜力与挑战

Justine：现在很多历史视频在Reels上流行。过去，我们通过阅读历史书获取知识，但这有些枯燥。如果能通过角色讲述历史并展示生成式视频场景，体验会更加引人入胜。

Michael：虽然我们不直接针对教育领域，但许多教育公司基于我们的API开发应用。视频交互的参与度远高于文字。我们近期推出了实时交互视频模型，这是首款实现低延迟音视频体验的产品。从语言学习到个人提升应用，当技术成本足够低时，将彻底改变用户与大语言模型（LLM）的交互方式。我个人最喜欢的项目是“与你最爱的书或电影角色聊天”。比如，你可以问：“为什么明知有凶手你还走进那个黑暗房间？”这种交互式体验比传统有声书更丰富，因为用户可以提出问题、回溯内容，体验更加生动。

Justine：视频模型的搜索空间非常大。单帧图像生成已经很复杂，但生成120帧的连续视频更具挑战性。Hedra聚焦于一个独特且有意义的问题，与其他视频模型有所不同。请描述一下这个问题的定义以及你的灵感来源。

Michael：这是一个很好的问题。我们看到基础模型层出现了专业化分工，就像Claude成为编程模型的标杆，Open AI提供通用助手，Gemini因成本效益和速度服务于企业场景。Hedra在视频模型领域也有类似定位。我们的基础模型性能很高，尤其是下一代模型，提供了内容创作的极大灵活性。但我们更关注如何让内容“活起来”，让用户愿意与之互动，感受到一致的个性和吸引力。核心在于如何将视频中角色的智能与渲染体验结合。我的愿景是用户能与视频中的角色双向沟通，角色拥有可编程的独特个性。这需要垂直整合，不仅优化核心模型，还要重新思考用户交互的未来体验。

（五）“以角色为中心”的视频模型与主体控制

Michael：我来自戏剧背景，虽然不是专业演员，但对角色表演充满热情。视频是我们日常互动的核心，无论是广告、在线课程还是Hedra驱动的无面频道，连接感至关重要。我们通过降低创作门槛、加快速度，让普通用户也能轻松生成内容。未来，模型的智能与渲染界限将逐渐模糊，用户将与理解其意图的系统对话。我们将角色视为控制的核心单元，而不仅仅是视频。这需要收集用户反馈，优化角色真实感和表现力，同时提供针对多主体的控制杠杆。

Matt：我花了很多时间为不同视频创建角色，Hedra的强大之处在于集成的角色创作工具。你可以创建或上传角色形象，保存以供后续使用，甚至转换语境或克隆声音。我的YouTube视频和教程的许多开场白都使用了Hedra克隆的我的声音。这种一体化体验在碎片化的生成式媒体市场中尤为珍贵。

（六）打造一体化生成式媒体平台

Justine：许多公司如Black Forest Labs在技术上取得突破，但仍需像Hedra这样的伙伴将体验传递给消费者和企业用户。你如何决定打造一个一体化平台，而不局限于某一技术？

Michael：这关乎专注与用户需求。我创立Hedra时，发现将对话融入媒体非常困难。过去，用户制作短视频需要叠加唇同步，缺乏整体感。我们的技术灵感是将呼吸、手势等信号与对话统一，打造更自然的视频模型。从市场角度看，我们观察到用户对不同应用的付费意愿差异。一些热门应用可能付费意愿低，但某些细分领域（如内容创作者）对高质量体验有强烈需求。我们选择整合最佳技术，无论是Hedra的还是伙伴如11 Labs的，确保用户获得最佳体验。

Matt：未来，AI角色会由单一模型生成文本、脚本、语音和视觉吗？

Michael：我认为行业正迈向多模态输入输出范式。单一模型的挑战在于控制力。用户需要精确调整语音、音调或节奏等细节。解耦输入能提供更多控制，但未来可能趋向全模态模型，用户可通过引导信号调整各模态的贴合度。

（七）交互式视频的未来

Justine：Hedra的长视频生成能力让我印象深刻。你可以上传几分钟音频，生成角色对话视频，分别调整形象和声音，避免一次性生成浪费资源。这种控制力让我对交互式视频的未来充满期待。

Michael：我们刚推出的交互式头像模型让我兴奋。未来，用户能像在流体画布上一样塑造视频元素，例如暂停视频并要求角色在某段话中更悲伤。这种双向沟通将带来下一代体验，很快就会实现。

Matt：真正的AI演员可能吗？用户实时与创建的角色互动，并给予指令。

Michael：绝对可能。但目前限制不在视频模型，而在大语言模型的个性真实感上。现有的AI伴侣（如Character AI）仍带有明显的模型痕迹。要实现真正交互式数字角色，还需在可配置个性上投入更多研究。

（八）Hedra 的音频生成与 AI 原生应用

Justine：Hedra的视频令人惊叹，但音频有时稍逊。11 Labs的最新模型提升了音频质量，但内容吸引力仍需改进。

Michael：音频生成是一个未充分探索的领域。当前生成式语音多用于旁白或配音，但像在嘈杂咖啡馆中生成自然对话的场景仍具挑战性。我们需要能控制环境音、多轮对话的音频模型，以提升视频创作的自然度。视频AI仍处于早期阶段。就像早期CGI特效看似逼真，如今看来却像卡通。我们的第一代模型曾让我惊叹，但现在看来已显粗糙。实现超可控、成本效益高、实时性能强的模型仍需努力。

Matt：用户会更喜欢与真实人类、拟真人类还是卡通角色互动？

Michael：我们生成了很多毛茸茸的小球和猫咪角色。Hedra的统一模型能处理各种角色，无论是石头还是机器人，让用户自由实验，创造前所未有的内容。我们打造统一模型，而非传统视频加唇同步，是为了避免用户受限于技术。用户可以尝试“会说话的石头”或“机器人与人的播客”，模型能自动处理对话和个性。这种灵活性激发了革命性的消费场景。

Justine：AI的交叉应用令人兴奋。消费者创造像“婴儿播客”这样的内容，启发企业应用。我在《福布斯》看到Hedra生成的婴儿广告推广企业软件，令人惊讶。这说明企业正快速拥抱AI，我们需要将消费者信号转化为企业级解决方案。

Michael：企业是我们增长最快的领域。生成式AI让内容创作从数周缩短到实时。例如，自动新闻主播正改变信息传播方式。过去，地方新闻因成本高昂而消失，但现在一人即可运营新闻频道。这种“中等规模个性化”满足了特定人群的需求，如地方美食或主题公园的精准广告，比过度个性化的Google模型更有效。

（九）创始人之路：挑战、热情与协同创新

Justine：作为创始人，你的经历如何？有哪些挑战和收获？

Michael：在旧金山，创始人生活常被美化，像是构建划时代技术的浪漫旅程。我来自佛罗里达小镇，从未想过会走这条路。但做创始人99%的时间都很艰难。你必须不断推动，问题从不减少——从隐形开发到面对海量支持邮件。身体上很疲惫，但内在满足感无与伦比。我爱我的用户和团队，无法想象做其他事。这是一种“第二类乐趣”——像攀登雪山，手脚受伤，但到达山顶后仍想再来。我每天早7:30进办公室，晚10点离开，有时凌晨2点还在讨论功能。这需要放弃工作与生活的界限，但热爱让我坚持。

Matt：你为何仍亲自编程？是表达创意还是与团队沟通？

Michael：两者都有。原型帮助我快速验证想法并明确传达预期。作为领导者，清晰沟通至关重要。我会与设计师讨论边界情况，确保系统可扩展。编程让我保持与团队的连接，了解他们的挑战，同时快速探索产品方向。

点击了解ChainCatcher在招岗位