通义视觉负责人薄列峰离职；ElevenLabs 开源 Next.js 音频入门套件，几分钟搭建对话式 AI丨日报

宇宙飞吻 發表於 2025-5-8 18:42:00

通义视觉负责人薄列峰离职；ElevenLabs 开源 Next.js 音频入门套件，几分钟搭建对话式 AI丨日报

<img src="https://static001.geekbang.org/infoq/7a/7aa2f261a5b68bd05890f6ae512144ab.png">
 
开发者朋友们大家好：
 
这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。
 
本期编辑：@赵怡岭、@鲍勃
<h2>01 有话题的技术</h2>
1、HeyGen 发布 Avatar IV 数字人模型
 
HeyGen 发布了 Avatar IV 数字人模型，只需一张照片、一段脚本和语音，用户即可快速生成高度逼真的数字人视频，支持动漫角色动效、宠物图像拟人化、游戏角色配音及播客视觉化等多种场景。
 
<ul>
<li>
新模型基于「扩散式音频驱动表情引擎」，能根据语音的节奏、语调、情绪合成真实的面部表情和动作；
</li>
<li>
支持侧脸图像与角度变化，带来更具电影感的画面；
</li>
<li>
支持唱歌同步（节奏匹配）；
</li>
<li>
除了精准的唇部同步外，Avatar IV 还能「理解」语义与情感，自动生成暂停、点头等细腻动作；
</li>
<li>
支持 30 秒音频/脚本：目前支持最长 30 秒的音频或文本脚本输入。（@三花 AI、@小互@X）
</li>
</ul>
 
2、ComfyUI 可直接在工作流中调用主流图像和视频模型 API
 
ComfyUI 新增原生 API 节点功能，支持 10 个以上模型系列和 62 个新节点，可直接调用 Veo2、Flux Ultra 等付费模型，同时完成品牌视觉更新，新 Logo 采用连接方块元素设计，融入 90 年代动漫与 Y2K 风格，配色方案全面升级。
 
即将推出用户自定义 API Key、工作流并行执行等功能，并且增强了视频处理能力。
 
目前通过 ComfyUI 调用的 API 价格与每个 API 提供的原始价格相同。
 
下面是定价及 API 节点一些相关的页面
 
<ul>
<li>
定价： https://docs.comfy.org/zh-CN/tutorials/api-nodes/pricing
</li>
<li>
相关文档：
</li>
<li data-liststyle="none">
https://docs.comfy.org/tutorials/api-nodes/overview（@腾讯研究院、ComfyUI 中文）
</li>
</ul>
 
3、ElevenLabs 开源 Next.js 音频快速入门套件
 
ElevenLabs 开源的 Next.js 音频快速入门套件，能够在几分钟内将文本转语音、语音转文本、音效和会话式 AI 部署到产品中。
 
音频快速入门套件构建技术栈：ElevenLabs SDK；Next.js + shadcn/ui; Tailwind CSS v4.(@ElevenLabs Developers@X)
 
4、通义视觉负责人薄列峰离职或加入某大厂新组建多模态团队
 
据多方信源透露，阿里巴巴通义实验室应用视觉团队负责人薄列峰（职级 P10）已于 2025 年 4 月 30 日正式离职，并低调加盟某头部互联网公司，出任新设立的多模态模型部副总经理一职。
 
尽管该互联网公司具体名称尚未公开，坊间普遍猜测其去向可能是字节跳动或腾讯，但目前相关公司及本人均未作出回应，尚无法证实具体归属。
 
此次人事变动引发业界关注的另一焦点在于「竞业限制」。爆料称，薄列峰目前常驻美国西雅图，因而不会受到中国大陆地区竞业协议的约束，为其快速跳槽到竞争对手平台扫清法律障碍。
 
资料显示，薄列峰 2007 年博士毕业于西安电子科技大学，随后在芝加哥大学丰田研究院及华盛顿大学进行博士后研究，方向涵盖机器学习、计算机视觉与机器人等。2013 年，他加入亚马逊西雅图总部，任首席科学家，主导 Amazon Go 无人零售技术的核心算法研发。2017 年 10 月，他回国加盟京东数科，出任 AI 实验室首席科学家。2022 年 9 月，薄列峰加入阿里，接替谭平出任达摩院 XR 实验室负责人，后转岗至通义实验室，成为通义大模型在图像及多模态方向的技术带头人。(@AIbase)
<h2>02 有亮点的产品</h2>
1、Bocca：几秒钟内将您的语音转换为完美转录的文本，支持离线转录
 
Bocca 能够将语音转换为精准转录为文本，按压说话，松开即停。同时支持对录音文件保持同等精度转换。
 
<ul>
<li>
全应用兼容：直接在电子邮件、文档或聊天软件中口述内容，不中断工作流；
</li>
<li>
瞬时转写：基于 OpenAI Whisper 模型的近实时转录能力；
</li>
<li>
多语言支持：以超高准确度转录多种语言；
</li>
<li>
离线优先架构：所有处理都在您的设备上进行——无需网络连接；
</li>
<li>
零数据存储：您的音频绝不离开您的电脑，确保完全隐私。
</li>
<li>
本地处理：利用设备算力实现安全可靠的内容转转录。(@Product Hunt)
</li>
</ul>
 
2、Calldock： AI 语音智能体即时呼叫网站潜在客户
 
Calldock 是一款可以立即呼叫用户的语音 AI 小部件，提供即时回拨、检测意图、录制通话，并与 Zapier、Slack 或 Google 日历同步 - 由听起来像人类的对话式 AI 提供支持。
 
<ul>
<li>
智能对话：我们的 AI 能够理解语境，并与您的客户保持连贯且有益的对话；
</li>
<li>
无缝适配：集成外部工具，如 Zapier、Slack 等，以实现工作流程自动化；
</li>
<li>
轻松安装：将一行代码复制并粘贴到您的网站上，您的语音智能体即可准备就绪；
</li>
<li>
顶级定制与扩展：可定制的 AI 智能体，能够匹配品牌声音和特定的业务需求，用于不同业务。(@Product Hunt)
</li>
</ul>
 
3、Parloa 融资 1.2 亿美元，市值突破 10 亿美元，欲扩展企业 AI 客服平台
 
近日，客户体验领域的创新公司 Parloa GmbH 宣布成功融资 1.2 亿美元，使其估值达到 10 亿美元。这笔新资金将用于加速公司在北美和欧洲的扩张，增强其智能体管理平台，并招聘国际人才。自 2018 年成立以来，Parloa 专注于为企业提供 AI 驱动的客户服务解决方案。
 
Parloa 的 AI 智能体管理平台允许企业通过一个低代码的界面设计、部署和管理各种沟通渠道上的 AI 客服智能体，包括语音、聊天和消息。这一平台的灵活性极高，企业可以利用现有的技术与系统（如 Salesforce、ServiceNow 和 Zendesk 等）集成，从而实现实时数据访问。企业用户可以根据自身需求，为 AI 智能体配置预设或自定义技能，完成任务，如路由、身份验证以及处理常见问题。
 
为了进一步优化客户服务体验，Parloa 还提供大规模测试和行为评估等工具，帮助企业在正式上线之前微调 AI 智能体的响应。此外，平台上线后，客户可以使用分析仪表板监控关键绩效指标，确保客户交互的持续改进。值得一提的是，Parloa 的产品还支持实时翻译和建议回复，这不仅提升了人类客服的工作效率，还能确保不同语言和地区的客户服务质量一致。
 
随着此次融资的完成，Parloa 迄今为止已筹集了约 2.18 亿美元，上一轮融资是在 2024 年 4 月获得的 6600 万美元。这一资金将进一步推动 Parloa 在 AI 客服领域的创新与发展。(@AIbase)
 
4、NBC 将利用 Jim Fagan 的 AI 生成声音为 NBA 赛事增色
 
NBC 近日宣布，将在即将到来的 NBA 赛事中使用已故体育解说员 Jim Fagan 的 AI 生成声音。Fagan 于 2017 年去世，他的声音曾在 1990 至 2002 年期间为 NBC 的 NBA 报道增添了不少风采。NBC 计划在 10 月份重新播出 NBA 比赛时，将 Fagan 的 AI 声音运用于选定的片头序列、节目开场及宣传片中。
 
值得一提的是，Fagan 的 AI 声音将「补充其他艺术家的传统配音工作」。实际上，NBC 去年在 2024 年巴黎奥运会上也尝试了 AI 配音技术，推出了一项工具，让观众能够利用著名运动解说员 Al Michaels 的 AI 生成声音制作个性化回顾。(@AIbase)
<h2>03 有态度的观点</h2>
1、人类文明终结？AI 正让我们变得「无关紧要」
 
AI 在经济、文化和社交等方面正在扮演着越来越重要的角色。当 AI 变得更加便宜且更加可靠时，人类的存在或许就变得不再那样重要了。
 
日前，在 AI 领域工作了 20 年的多伦多大学计算机科学副教授、Schwartz Reisman 技术与社会研究所联合主任 David Duvenaud，在英国《卫报》上发表了带有上述观点的相关文章。
 
在他看来，我们只能在跟踪 AI 的使用和影响、对前沿 AI 实验室进行部署和监督、利用 AI 加强人们的组织和自我宣传能力、学习掌控我们的文明这些方面做出努力。然而，技术开发者们目前还没有更好的计划去应对这种趋势。
 
「它们将以无数细微的方式悄然取代人类，最初是因为它们更便宜，最终是因为它们确实比我们表现最好的人更出色。」「无论你是否会丢掉工作，你都会清楚，你的意见是可有可无的。」
 
「人工智能对齐（alignment）这一技术领域关注的是如何确保机器与我们的目标一致，它需要将范围扩大到政府、机构和社会本身。这一新兴领域有时被称为「生态系统对齐」，它可以借鉴经济学、历史学和博弈论，帮助我们了解我们可以合理地期望什么样的未来，以及如何实现这些目标。」
 
他表示，我们不应该成为 AI 的竞争者，争分夺秒地打造自己的替代品，而是应该作为其受益者和管理者。（@学术头条）
 
<img src="https://static001.geekbang.org/infoq/52/52bf8f733d47d8daa28fa52d42e1eabf.png">
 
更多 Voice Agent 学习笔记：
 
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记
 
a16z 最新报告：AI 数字人应用层即将爆发，或将孕育数十亿美金市场丨 Voice Agent 学习笔记
 
a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
 
ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
 
端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
 
世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过
 
多模态 AI 怎么玩？这里有 18 个脑洞
 
AI 重塑宗教体验，语音 Agent 能否成为突破点？
 
对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来
 
a16z 最新语音 AI 报告：语音将成为关键切入点，但非最终产品本身（含最新图谱）
 
写在最后：
 
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。
 
对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。
 
<img src="https://static001.geekbang.org/infoq/57/57ab7674911c35764a261b0b0140aff2.png">
 
素材来源官方媒体/网络新闻 
来源：https://www.cnblogs.com/rtedev/p/18866907

頁: [1]

圆梦公社's Archiver

通义视觉负责人薄列峰离职；ElevenLabs 开源 Next.js 音频入门套件，几分钟搭建对话式 AI丨日报