AI视频通话 产品化的三条路

“做AI产品经理太难了。”近期脑极体的同事参加了一场开发者大会,一位产品经理向我们坦言:“ AI时代,做产品的方法论没变,但以往熟悉的东西几乎都被清零了。”

用户需求被清零了,大模型到底能用来做什么,用户自己是不清楚的,需求是空白的,需求调研、产品定义,就要花费好几个月的时间。

好不容易定义好了,基础模型的一个更新,就有可能将前期所做的工作、功能规划等推倒重来。

“比如GPT-4o出现之后,语音对话的能力是我们完全意想不到的,就又得把产品开发过程再来一遍……”

而纵观一年多来推陈出新的数百个大模型,GPT-4o可以说是产品化程度非常高的一个了。

比如OpenAI发布会上展示的“AI视频通话”,使用户与AI进行实时的、跟真人对话一样自然的视频交流。国内模型厂商也很快推出了类似的AI视频通话功能,不少媒体和用户都表示“体验炸裂”。

但半年时间过去,发现在最初的震惊与新鲜感过后,在真正的软件生态里,还是没有看到“AI视频通话”被大规模、高频率地用起来,更别提激活用户的付费欲望了。为什么会这样?

我们就从“AI视频通话”说开去,聊聊AI产品化、商业化到底要经过哪些磨砺。

钻石原矿被开采出来,其实并不璀璨夺目,是经由工匠们的切割打磨,被镶嵌成钻石首饰,包装为“爱情象征”,才走进大众消费市场,价值实现了百倍千倍攀升。

类GPT-4o大模型就类似于原矿,作为“交互天花板”,潜在商业价值很大,但必须经过产品化的精细打磨与包装,才能被大众用户广泛接受,实现其真正的价值和应用潜力。

而基于类GPT-4o所诞生的“AI视频通话”,虽然向产品化迈进了一步,但依然属于原型的基础能力。

尽管OpenAI、智谱等模厂已经针对“AI视频通话”这一应用,打磨了诸如响应速度、具体用例等产品侧的细节,并融入到ChatGPT、智谱清言APP等产品当中。但作为一种软件应用来说,这种与通用场景相结合的落地模式,还是比较粗陋。

首先,需求过于宽泛。

AI视频通话,技术上相当于让AI拥有“眼睛”和“嘴”,具备察言观色、跟真人对话的能力。这很容易就让人想到AI陪伴,人与AI谈天说地、谈情说爱。

直接将AI视频通话能力嫁接在聊天机器人上,本质依然是AI聊天,能力升级,但无法解决chatbot商业价值低的核心问题。

AI视频聊天,用户容错率高,不在乎AI偶尔犯错或出现幻觉,这也意味着对基础模型能力要求不严苛,无法在技术层面拉开差距。曾经的智能音箱大战、智能助手红海,也会在AI视频聊天领域出现,并且由于聊天并不能帮助用户完成具体任务或解决问题,用户还得自己琢磨在视频里跟AI聊什么,没一会儿就只能跟AI面面相觑,难以带来确定性的产品满足和持久粘性,新鲜感过后就会流失。

而一些直接用途,想要普遍应用,也有大量细节仍待填充。

比如基于AI视频通话的无障碍功能,是一个非常直接的落地场景。AI视频通话,可以将设备摄像头作为“眼睛”,帮助人去理解物理世界,这对视障人群岂不是很友好?

但实际上,大模型APP的视频通话功能,是无法直接被视障人群用起来的,还有大量的产品细节需要考虑。比如我们曾体验过实时图像识别,AI只能认出“面前有两张卡”,但哪张是公交卡,哪张是银行卡,是无法准确识别的,这就需要基于视障群体出行接触的高频物体,进行针对性地精调。

而且,在飞机、高铁、地铁等弱网、无网环境下,也要保证视障人群与AI视频通话的实时性,就需要纯端侧运行的多模态大模型,将模型做小、计算效率做高。

产品设计层面,还有大量的细节,还等待着填充,才能转化为用户可以方便使用的产品和服务。

可以看到,没有更细致的产品化,尽管“AI视频通话”这一基础能力很厉害,却不知道能用来干什么,很可能导致技术找不到市场,倒在了产品化变现的黎明到来之前。

这个“至暗时刻”会发生吗?

欣慰的是,我们发现 “AI视频通话”能力,已经开始向行业输送了,意味着这座AI基础能力的“原矿”,终于开始被打磨成晶光四射的钻石。

我们就从“原矿”流向的应用领域,来分享几个“AI视频通话”的产品化方向。

大模型怎么落地?智能体是方向。

智能体怎么服务?+AI视频通话事半功倍。

如今,手机软件承载着我们日常的绝大多数服务,在各个应用中来回跳转、操作是非常繁琐的。

今年以来,荣耀、vivo等厂商都在基于智能体打造一系列创新功能体验,比如“一句话点奶茶”“一句话订餐厅”等。用户只需要向手机助手发出指令,手机智能体会自动理解需求、拆解任务步骤、调取相关功能,一站到底地完成任务。

Agent手机就很好地解决了数字服务链路长、操作繁琐的问题,但新的问题又来了,那就是智能体还需要“看得懂”“能交流”。

举个例子,在外卖小程序下单时,遇到广告是常态,这时候需要智能体agent执行准确的操作,比如“点击关闭”“跳过”等,来推进到下一步。如果智能体无法识别相关内容,必须用户自己动手操作,那整个链路就被打断了,用户体验会非常不好。有跟智能助手通过文字prompt交流的功夫,用户自己就能点开程序完成下单了。

Agent手机+视频通话,就能用户体验更进一步。

比起打字的繁琐、语音尴尬症,在人机对话时,像跟真人面对面交流一样,通过语音对话完成下单,更符合直觉,也更有被服务的舒适感。对话之后,大模型对视频画面进行实时分析,指导智能体来自动执行,整个体验会从头到尾丝滑无感。

目前,国内终端厂商在端侧智能体方面走得是更快的。脑极体在VDC 2024大会上了解到,蓝河操作系统增添了视觉感知能力,让系统像人类一样“听得懂”“看得清”。智能体能够模拟人类的智能,助力操作系统像人一样进行沟通、执行智能任务。

如果说,智能体可以让人成为数字服务的最小参与者,那么在智能体手机中打磨的AI视频通话,则让人机交互朝着更理想、更符合直觉的体验靠近,让数字生活管家走进现实。

将AI视频通话功能集成到垂直应用软件中,可以变成拟人化的垂域专家,提供更专业的服务,解决更具体的问题,从而激活用户的付费意愿和模型API经济。

目前,OpenAI为GPT-4o预设了十几个场景,清言视频通话API上线智谱开放平台时,也列出了智能硬件(VR眼镜)、教育培训AI私教、文旅场景AI向导、具身智能等落地方向。通过将AI视频通话API开放出来,鼓励开发者在产品中集成“AI视频通话”功能。

9月24日,多邻国(Duolingo)在第六届全球分享大会上,推出了 AI 视频通话(Video Call)。Duolingo Max 用户可以与多邻国的角色 Lily(拽姐)进行视频通话,进行个性化的互动练习。在对话中,AI会根据用户的语言水平灵活调整内容。

学习语言最难的就是高频使用环境和开口说话的心理障碍,通过AI视频通话提供实时的对话机会,可以让小白初学者也能自信开口,进行有效联系。据说,多邻国的这一新功能接入了OpenAI的高级语音API功能。

国内头部社交软件Soul,也上线了AI聊天机器人“AI苟蛋”,可以主动跟用户找话题,并且年底将开启AI陪聊机器人的视频通话服务。不同于泛泛聊天,Soul主打的是灵魂交友,平台用户倾向于开展深层交流,探讨深度话题,寻求心灵共鸣。

在这种较为成熟的社区氛围下,用户在使用AI视频通话的预期、内容也是较为明确的,不会出现不知道聊什么的情况。

各行各业都存在大量需要互动的场景,可以跟“AI视频通话”相结合提供拟人化体验。但用户能否由此对应用和AI视频通话产生黏性,还需要行业伙伴把使用门槛降到最低,这不仅需要行业拥有产品开发的能力与意愿,能够洞察缺口与机遇,也需要模厂的生态支持。

从哆啦A梦到阿童木、贾维斯、Her,这些让人类感觉友好温暖的AI,都是拟人化的。也许说明, 我们更愿意跟更像人类的AI打交道,而不是冰冷无形的机器。

一位智能机器从业者告诉我们,一开始设计的新车只有虚拟的语音助手,用户上车之后觉得跟空气说话很尴尬,激活率不高,所以设计了一个带有屏幕的车载控件,可以跟车主打招呼、有表情,车主很喜欢跟它对话,逢年过节还会为它买各种装饰物,把它当作用车场景中的家庭一员。

从这个思路看,AI视频通话其实可以被加入各种硬件当中,与用户展开真人一般的对话,从而成为情感共同体,由此衍生的商业空间也非常充裕。

透过AI视频通话,相信大家能够感受到,无论是AI企业或普通大众,对于AI产品化的需求越来越实质。

模型技术只是能力,是原型,而远不到普遍可用的阶段。唯有通过产品化的细致打磨,AI这座商业富矿,才能真正显露出钻石般的光芒。


智能AI产品优势

1. 应客智能AI电话机器人采用先进的语音交互系统,取代了传统的语音群呼方式。 它能够实现人机互答,以100%真人的动态为您主动筛选和培养有效客户。 这有助于企业解决招聘困难和高人力成本的问题。 您无需再担心员工操作不准确的问题,因为机器人能在最短的时间内对客户进行分类,实现标准化执行,低成本管理。 它能够全天候工作,无需休息日和假期,也无需缴纳五险一金。 2. 应客智能AI电话机器人通过精确的语音路径,对潜在客户进行群呼。 机器人能够主动提出“带有情感和语调的真人语音”的建议,直接将有潜在意向的客户有条理地推荐给企业。 这使得企业销售人员能够直接跟进机器人无法触及的销售线索,从而显著提高销售转化率,增加成交数量。

AI视频营销公司真的只是打着AI的幌子做着广告批发的生意吗?

AI公司就是全靠AI挣钱吗?

有朋友说,AI视频营销公司只是打着AI的幌子做着广告批发的生意,没那么高大上,不是真正意义上的AI公司。

我并不是很认同他的观点,技术首先是个生产力,如果这个生产力改变了这个行业原先的产业链效率或创造了新的产业链价值,那这个公司就是有价值的,是能分配到产业利润的;但是,技术永远都只是个必要条件,只是其中一个产业要素而已,我们不能唯技术论地简单地认为广告招商、媒体资源获取、广告程序化投放这些看上去技术含量没那么高的工作就是没有价值的。

AI只是个切入口,它让这些技术公司有机会去和头部媒介平台合作,拿着更好的条件(成本和账期等)去和那些传统的广告营销公司竞争广告主爸爸有限的预算。 它确实是广告营销公司,事实上很多目前AI独角兽也都是如此,新老公司在传统行业里逐渐进行了更替,降低了行业总成本,让这个行业变得更好一点。

大家好才是真的好

5G来临,视频是未来最主要信息传播方式。 2021年预计视频流量将占据全球所有网络用户流量的82%,视频将成为主要的信息形态。 和文字、图片相比,视频中信息更加丰富,能更好的营造场景,讲述品牌故事,因此更加适合广告营销,受宏观经济影响明显,今年互联网广告广告整体放缓的情况下,电商直播逆势崛起,今年618期间,口红一哥李佳琦一场直播卖出15万支唇釉;而短视频更是异军突起,2018年短视频营销市场规模达到187.9亿元,同比增长率高达732.8%。

AI视频营销是一种兼顾了用户、平台、广告主等多方诉求的新式视频广告,在视频的风口下也有望被大众所接受。

对于用户,广告是基于视频内容本身的,没有那种生硬乱入的感觉,这种产品形态的接受度更高,不容易反感。

对于广告主,在合适的场景中反复投放广告,更容易建立用户对品牌的认知;这种广告投放门槛更低,投放灵活,根据投放效果可以随时修改投放策略,不用前期一次性投入;和植入营销相比,广告主不用承担内容不能上映或项目收视率低的风险。

对于视频平台,会员服务和贴片广告相互矛盾,平台会员费的增加势必会影响贴片广告的播放。 这种AI视频营销属于新增的广告位资源,不仅和会员服务不冲突,而且增加了广告位资源的上限,还顺带解决了长尾视频内容的商业变现问题。 这对目前持续亏损的视频平台来说无疑是很好的变现方向。

道路是曲折的,前途是光明的

AI视频营销是利用视频内容进行场景营销,视频内容是其载体和先决条件,行业从业者首先得占据一定的媒体端资源。 但移动端和PC端长视频领域的流量和头部内容基本上被爱奇艺、腾讯、优酷三大平台所垄断,上游是广告主爸爸,下游是BAT爸爸,行业上下游都很强势,这夹在中间的感受不太好受。 而且腾讯和爱奇艺正在自建技术团队做这块业务。

可以说,AI视频营销的进入门槛在媒体渠道上。 行业从业者各自选择了不同的细分媒体渠道,影谱直接和CP内容方合作,Video++主攻直播平台,视连通则覆盖了不少OTT渠道。 目前影谱正在筹备上市,而Video++则刚完成了新一轮大额融资,这个赛道已经被客户和资本所认可,未来他们的发展或许会超出我们的想象。

AI视频营销目前主要是跟随着视频内容进行广告展示,属于品牌广告。 品牌广告优势在于对品牌的长期塑造,而效果广告侧重购买的转化。 在目前经济下行周期,广告主在投放广告时更注重ROI等指标,效果广告的比重会加大;如何通过技术实现广告的互动、销售的直接转化和数据的完整闭环,是这个行业未来的发展方向。

AI音视频解决方案如何提升用户体验?

以下是关于 AI 音视频解决方案如何提升用户体验的一些详细分析:一、音频方面智能降噪:通过 AI 技术精准识别并消除环境中的各种噪音,让用户在嘈杂环境中也能清晰地听到音频内容,如通话、语音聊天、听音乐等。 这可以极大地提高用户在户外、公共交通工具等嘈杂场所使用音频设备的满意度。 为远程会议和在线学习提供更清晰的声音环境,减少因噪音干扰导致的沟通障碍。 个性化音效:根据用户的喜好和听觉特点,利用 AI 算法为用户定制个性化的音效模式。 比如,有些人喜欢重低音,而有些人则偏好高音清晰的效果。 能够满足不同用户对于音频品质的独特需求,增加用户对音视频产品的喜爱度。 语音增强:对于语音内容,如有声读物、语音导航等,AI 可以增强人声的清晰度和可懂度。 使语音更加清晰、自然,减少用户的听力疲劳。 有助于提高用户在获取信息时的效率和舒适度。 二、视频方面智能画质优化:利用 AI 分析视频的内容和场景,自动调整画面的亮度、对比度、色彩等参数,以适应不同的观看环境和设备。 无论是在强光下的手机屏幕还是昏暗的房间里的电视,都能提供最佳的视觉效果。 提升老影片或低画质视频的清晰度和流畅度,为用户带来更好的观看体验。 内容推荐:基于用户的观看历史和偏好,通过 AI 算法为用户推荐个性化的音视频内容。 帮助用户更快地发现符合自己兴趣的新内容,节省搜索时间。 提高用户对平台内容的满意度和粘性。 实时翻译:对于外语视频,AI 能够提供实时的字幕翻译,让用户能够轻松理解。 拓宽用户的内容选择范围,不再受语言限制。 促进不同语言文化的交流和传播。 三、交互方面语音控制:用户可以通过语音指令来操作音视频的播放、暂停、快进、切换等功能,解放双手。 特别在用户双手忙碌或不便操作设备时,提供便捷的控制方式。 增加操作的灵活性和效率。 情感识别:AI 可以分析用户的表情和声音,判断用户对当前音视频内容的情感反应,从而调整推荐和播放策略。 如果用户表现出厌烦,系统可以自动切换到更符合用户心情的内容。 提升用户与音视频内容之间的互动性和契合度。 总之,AI 音视频解决方案通过在音频、视频和交互等多个方面的创新和优化,能够从多个角度提升用户的体验,为用户带来更加便捷、舒适、个性化和丰富的音视频享受。

老夫人明明看穿了罗慎远 为何还大力支持赛文宴 锦绣安宁
Gen3高性价比之王 史无前例的价格!真我GT6双11到手2