宇宙飞吻 發表於 2025-5-8 18:42:00

通义视觉负责人薄列峰离职;ElevenLabs 开源 Next.js 音频入门套件,几分钟搭建对话式 AI丨日报

<p data-pm-slice="0 0 []">&nbsp;</p>
<img src="https://static001.geekbang.org/infoq/7a/7aa2f261a5b68bd05890f6ae512144ab.png">
<p>&nbsp;</p>
<p>开发者朋友们大家好:</p>
<p>&nbsp;</p>
<p>这里是 <strong>「RTE 开发者日报」</strong> ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 <strong>技术</strong> 」、「有亮点的 <strong>产品</strong> 」、「有思考的 <strong>文章</strong> 」、「有态度的 <strong>观点</strong> 」、「有看点的 <strong>活动</strong> 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。</p>
<p>&nbsp;</p>
<p>本期编辑:@赵怡岭、@鲍勃</p>
<h2>01 有话题的技术</h2>
<p><strong>1、HeyGen 发布 Avatar IV 数字人模型</strong></p>
<p>&nbsp;</p>
<p>HeyGen 发布了 Avatar IV 数字人模型,只需一张照片、一段脚本和语音,用户即可快速生成高度逼真的数字人视频,支持动漫角色动效、宠物图像拟人化、游戏角色配音及播客视觉化等多种场景。</p>
<p>&nbsp;</p>
<ul>
<li>
<p>新模型基于「扩散式音频驱动表情引擎」,能根据语音的节奏、语调、情绪合成真实的面部表情和动作;</p>
</li>
<li>
<p>支持侧脸图像与角度变化,带来更具电影感的画面;</p>
</li>
<li>
<p>支持唱歌同步(节奏匹配);</p>
</li>
<li>
<p>除了精准的唇部同步外,Avatar IV 还能「理解」语义与情感,自动生成暂停、点头等细腻动作;</p>
</li>
<li>
<p>支持 30 秒音频/脚本:目前支持最长 30 秒的音频或文本脚本输入。(@三花 AI、@小互@X)</p>
</li>
</ul>
<p>&nbsp;</p>
<p><strong>2、ComfyUI 可直接在工作流中调用主流图像和视频模型 API</strong></p>
<p>&nbsp;</p>
<p>ComfyUI 新增原生 API 节点功能,支持 10 个以上模型系列和 62 个新节点,可直接调用 Veo2、Flux Ultra 等付费模型,同时完成品牌视觉更新,新 Logo 采用连接方块元素设计,融入 90 年代动漫与 Y2K 风格,配色方案全面升级。</p>
<p>&nbsp;</p>
<p>即将推出用户自定义 API Key、工作流并行执行等功能,并且增强了视频处理能力。</p>
<p>&nbsp;</p>
<p>目前通过 ComfyUI 调用的 API 价格与每个 API 提供的原始价格相同。</p>
<p>&nbsp;</p>
<p>下面是定价及 API 节点一些相关的页面</p>
<p>&nbsp;</p>
<ul>
<li>
<p>定价: https://docs.comfy.org/zh-CN/tutorials/api-nodes/pricing</p>
</li>
<li>
<p>相关文档:</p>
</li>
<li data-liststyle="none">
<p>https://docs.comfy.org/tutorials/api-nodes/overview(@腾讯研究院、ComfyUI 中文)</p>
</li>
</ul>
<p>&nbsp;</p>
<p><strong>3、ElevenLabs 开源 Next.js 音频快速入门套件</strong></p>
<p>&nbsp;</p>
<p>ElevenLabs 开源的 Next.js 音频快速入门套件,能够在几分钟内将文本转语音、语音转文本、音效和会话式 AI 部署到产品中。</p>
<p>&nbsp;</p>
<p>音频快速入门套件构建技术栈:ElevenLabs SDK;Next.js + shadcn/ui; Tailwind CSS v4.(@ElevenLabs Developers@X)</p>
<p>&nbsp;</p>
<p><strong>4、通义视觉负责人薄列峰离职 或加入某大厂新组建多模态团队</strong></p>
<p>&nbsp;</p>
<p>据多方信源透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级 P10)已于 2025 年 4 月 30 日正式离职,并低调加盟某头部互联网公司,出任新设立的多模态模型部副总经理一职。</p>
<p>&nbsp;</p>
<p>尽管该互联网公司具体名称尚未公开,坊间普遍猜测其去向可能是字节跳动或腾讯,但目前相关公司及本人均未作出回应,尚无法证实具体归属。</p>
<p>&nbsp;</p>
<p>此次人事变动引发业界关注的另一焦点在于「竞业限制」。爆料称,薄列峰目前常驻美国西雅图,因而不会受到中国大陆地区竞业协议的约束,为其快速跳槽到竞争对手平台扫清法律障碍。</p>
<p>&nbsp;</p>
<p>资料显示,薄列峰 2007 年博士毕业于西安电子科技大学,随后在芝加哥大学丰田研究院及华盛顿大学进行博士后研究,方向涵盖机器学习、计算机视觉与机器人等。2013 年,他加入亚马逊西雅图总部,任首席科学家,主导 Amazon Go 无人零售技术的核心算法研发。2017 年 10 月,他回国加盟京东数科,出任 AI 实验室首席科学家。2022 年 9 月,薄列峰加入阿里,接替谭平出任达摩院 XR 实验室负责人,后转岗至通义实验室,成为通义大模型在图像及多模态方向的技术带头人。(@AIbase)</p>
<h2>02 有亮点的产品</h2>
<p><strong>1、Bocca:几秒钟内将您的语音转换为完美转录的文本,支持离线转录</strong></p>
<p>&nbsp;</p>
<p>Bocca 能够将语音转换为精准转录为文本,按压说话,松开即停。同时支持对录音文件保持同等精度转换。</p>
<p>&nbsp;</p>
<ul>
<li>
<p>全应用兼容:直接在电子邮件、文档或聊天软件中口述内容,不中断工作流;</p>
</li>
<li>
<p>瞬时转写:基于 OpenAI Whisper 模型的近实时转录能力;</p>
</li>
<li>
<p>多语言支持:以超高准确度转录多种语言;</p>
</li>
<li>
<p>离线优先架构:所有处理都在您的设备上进行——无需网络连接;</p>
</li>
<li>
<p>零数据存储:您的音频绝不离开您的电脑,确保完全隐私。</p>
</li>
<li>
<p>本地处理:利用设备算力实现安全可靠的内容转转录。(@Product Hunt)</p>
</li>
</ul>
<p>&nbsp;</p>
<p><strong>2、Calldock: AI 语音智能体即时呼叫网站潜在客户</strong></p>
<p>&nbsp;</p>
<p>Calldock 是一款可以立即呼叫用户的语音 AI 小部件,提供即时回拨、检测意图、录制通话,并与 Zapier、Slack 或 Google 日历同步 - 由听起来像人类的对话式 AI 提供支持。</p>
<p>&nbsp;</p>
<ul>
<li>
<p>智能对话:我们的 AI 能够理解语境,并与您的客户保持连贯且有益的对话;</p>
</li>
<li>
<p>无缝适配:集成外部工具,如 Zapier、Slack 等,以实现工作流程自动化;</p>
</li>
<li>
<p>轻松安装:将一行代码复制并粘贴到您的网站上,您的语音智能体即可准备就绪;</p>
</li>
<li>
<p>顶级定制与扩展:可定制的 AI 智能体,能够匹配品牌声音和特定的业务需求,用于不同业务。(@Product Hunt)</p>
</li>
</ul>
<p>&nbsp;</p>
<p><strong>3、Parloa 融资 1.2 亿美元,市值突破 10 亿美元,欲扩展企业 AI 客服平台</strong></p>
<p>&nbsp;</p>
<p>近日,客户体验领域的创新公司 Parloa GmbH 宣布成功融资 1.2 亿美元,使其估值达到 10 亿美元。这笔新资金将用于加速公司在北美和欧洲的扩张,增强其智能体管理平台,并招聘国际人才。自 2018 年成立以来,Parloa 专注于为企业提供 AI 驱动的客户服务解决方案。</p>
<p>&nbsp;</p>
<p>Parloa 的 AI 智能体管理平台允许企业通过一个低代码的界面设计、部署和管理各种沟通渠道上的 AI 客服智能体,包括语音、聊天和消息。这一平台的灵活性极高,企业可以利用现有的技术与系统(如 Salesforce、ServiceNow 和 Zendesk 等)集成,从而实现实时数据访问。企业用户可以根据自身需求,为 AI 智能体配置预设或自定义技能,完成任务,如路由、身份验证以及处理常见问题。</p>
<p>&nbsp;</p>
<p>为了进一步优化客户服务体验,Parloa 还提供大规模测试和行为评估等工具,帮助企业在正式上线之前微调 AI 智能体的响应。此外,平台上线后,客户可以使用分析仪表板监控关键绩效指标,确保客户交互的持续改进。值得一提的是,Parloa 的产品还支持实时翻译和建议回复,这不仅提升了人类客服的工作效率,还能确保不同语言和地区的客户服务质量一致。</p>
<p>&nbsp;</p>
<p>随着此次融资的完成,Parloa 迄今为止已筹集了约 2.18 亿美元,上一轮融资是在 2024 年 4 月获得的 6600 万美元。这一资金将进一步推动 Parloa 在 AI 客服领域的创新与发展。(@AIbase)</p>
<p>&nbsp;</p>
<p><strong>4、NBC 将利用 Jim Fagan 的 AI 生成声音为 NBA 赛事增色</strong></p>
<p>&nbsp;</p>
<p>NBC 近日宣布,将在即将到来的 NBA 赛事中使用已故体育解说员 Jim Fagan 的 AI 生成声音。Fagan 于 2017 年去世,他的声音曾在 1990 至 2002 年期间为 NBC 的 NBA 报道增添了不少风采。NBC 计划在 10 月份重新播出 NBA 比赛时,将 Fagan 的 AI 声音运用于选定的片头序列、节目开场及宣传片中。</p>
<p>&nbsp;</p>
<p>值得一提的是,Fagan 的 AI 声音将 「补充其他艺术家的传统配音工作」。实际上,NBC 去年在 2024 年巴黎奥运会上也尝试了 AI 配音技术,推出了一项工具,让观众能够利用著名运动解说员 Al Michaels 的 AI 生成声音制作个性化回顾。(@AIbase)</p>
<h2>03 有态度的观点</h2>
<p><strong>1、人类文明终结?AI 正让我们变得「无关紧要」</strong></p>
<p>&nbsp;</p>
<p>AI 在经济、文化和社交等方面正在扮演着越来越重要的角色。当 AI 变得更加便宜且更加可靠时,人类的存在或许就变得不再那样重要了。</p>
<p>&nbsp;</p>
<p>日前,在 AI 领域工作了 20 年的多伦多大学计算机科学副教授、Schwartz Reisman 技术与社会研究所联合主任 David Duvenaud,在英国《卫报》上发表了带有上述观点的相关文章。</p>
<p>&nbsp;</p>
<p>在他看来,我们只能在跟踪 AI 的使用和影响、对前沿 AI 实验室进行部署和监督、利用 AI 加强人们的组织和自我宣传能力、学习掌控我们的文明这些方面做出努力。然而,技术开发者们目前还没有更好的计划去应对这种趋势。</p>
<p>&nbsp;</p>
<p>「它们将以无数细微的方式悄然取代人类,最初是因为它们更便宜,最终是因为它们确实比我们表现最好的人更出色。」「无论你是否会丢掉工作,你都会清楚,你的意见是可有可无的。」</p>
<p>&nbsp;</p>
<p>「人工智能对齐(alignment)这一技术领域关注的是如何确保机器与我们的目标一致,它需要将范围扩大到政府、机构和社会本身。这一新兴领域有时被称为「生态系统对齐」,它可以借鉴经济学、历史学和博弈论,帮助我们了解我们可以合理地期望什么样的未来,以及如何实现这些目标。」</p>
<p>&nbsp;</p>
<p>他表示,我们不应该成为 AI 的竞争者,争分夺秒地打造自己的替代品,而是应该作为其受益者和管理者。(@学术头条)</p>
<p>&nbsp;</p>
<img src="https://static001.geekbang.org/infoq/52/52bf8f733d47d8daa28fa52d42e1eabf.png">
<p>&nbsp;</p>
<p><strong>更多 Voice Agent 学习笔记:</strong></p>
<p>&nbsp;</p>
<p>级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记</p>
<p>&nbsp;</p>
<p>a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记</p>
<p>&nbsp;</p>
<p>a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记</p>
<p>&nbsp;</p>
<p>ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记</p>
<p>&nbsp;</p>
<p>端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记</p>
<p>&nbsp;</p>
<p>世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过</p>
<p>&nbsp;</p>
<p>多模态 AI 怎么玩?这里有 18 个脑洞</p>
<p>&nbsp;</p>
<p>AI 重塑宗教体验,语音 Agent 能否成为突破点?</p>
<p>&nbsp;</p>
<p>对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来</p>
<p>&nbsp;</p>
<p>a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)</p>
<p>&nbsp;</p>
<p><strong>写在最后:</strong></p>
<p>&nbsp;</p>
<p>我们欢迎更多的小伙伴参与 <strong>「RTE 开发者日报」</strong> 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。</p>
<p>&nbsp;</p>
<p>对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。</p>
<p>&nbsp;</p>
<img src="https://static001.geekbang.org/infoq/57/57ab7674911c35764a261b0b0140aff2.png">
<p>&nbsp;</p>
<p>素材来源官方媒体/网络新闻</p><br><br>
来源:https://www.cnblogs.com/rtedev/p/18866907
頁: [1]
查看完整版本: 通义视觉负责人薄列峰离职;ElevenLabs 开源 Next.js 音频入门套件,几分钟搭建对话式 AI丨日报