小红书,再造一个更有「声」命力的社区

小红书,再造一个更有「声」命力的社区

2026 马年注定迎来一个「AI 味」最浓的春节。

一个与众不同的玩家进入我们的视线,它正是国内最有活人感的生活和消费社区 —— 小红书,卷起了「感知力」。

小红书围绕着发布、评论、搜索、社交等高频互动场景,开放了多种 AI 语音新玩法,包括语音发布、语音评论、语音问一问、语音私信拜年等。

这些新奇有趣的语音玩法,带来的直观效果是:用户之间的沟通媒介不再只是图文,而开始了「动嘴」模式。

语音回帖让以往冷冰冰的评论区有了「满满的活人感」,涌进世界各地的语言、中国各地的方言,还有人秀起歌喉以及各式各样的播音腔、磁性嗓、低音炮。

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

图源:@牛角包大王 @别咬我兔耳朵

如果说语音评论增强了社交趣味性,这两天正式上线的「语音问一问」则是社区搜索形态与功能的一次大变身。

它与传统 AI 搜索最大的区别是将真人经验与 AI 总结结合了起来,你搜索到的每一个答案,都是真实用户的知识与经验沉淀。

在小红书里直接搜「语音问就有活人答案」进入活动页面,便能开启该功能。这个春节,年货买什么、哪里好逛,开口问就行。

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

用户还可以参与「语音问一问抽新春小红盒、语音拜年、语音联欢会」等特色迎春活动,互动起来更能感受到年味。

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

图源:@甜甜圈

声音,让小红书社区「活」起来

作为人类最自然的交流媒介,声音的加入正在将小红书改造成更有「声」命力的社区。

先从语音评论说起,自开启该功能内测以来,各路网友脑洞大开,有人秀自己的正宗法式发音:

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

图源:@labalibi

声源:@nagono

上海话让人想到江南烟雨中的温婉女子:

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

图源:@基尼斯贝贝.

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

声源:@琉璃

一些歌手已开始在评论区一展歌喉,如杨丞琳:

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

图源&声源:@杨丞琳

不同曲风的 K 歌接龙以及稀奇古怪的声音模仿让评论区充满了欢乐:

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

图源:@Han(天线短路宝宝)

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

声源:@yearn

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

图源:@兜兜有米

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

声源:@灏-Mioarti

好玩之外,语音评论还可以很暖心。听障人士向外界展示他们真实的声音,这种人文关怀令人动容。

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

图源:@听障研究生~彤

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

声源:@! ! !

上线即火爆的「语音问一问」功能,其 AI 增强搜索与问答能力让体验从手动翻阅一篇篇笔记进化到一问即得。

很多明星都参与了进来,比如曾参加过《歌手 2024》的美国男歌手 Adam Lambert 操着蹩脚的普通话发问「动口不动手」的含义,还请教了春节快乐的粤语表达。

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

我们也开口问了两个问题,第一个是「北京春节有哪些年味浓的地方」,中间还进行了追问。在识别语音之后,AI 很快根据小红书站内笔记生成结构化总结,还进行分门别类,比如经典年味地标、文艺小众去处和老北京大集,最后还附上了出行小贴士。

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

接着问「腊月 23 小年的特殊含义以及南北方的差异」。从结果来看,AI 同样调取站内笔记,将其中零散的信息重组转化为一份结构严密的答案,清楚列出了南北方小年在日期、习俗、饮食、活动等方面的差异。

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

当你想挑一些「看起来比较贵重,但又不是真的很贵的礼物」时,出来的这份答案能否满足你的要求呢?

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

全新的玩法「语音发布」也已经上线,不少明星用它来分享日常生活、发送祝福。

小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区_

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

图源&声源:@王铮亮

从互动到搜索、再到笔记,AI 语音的全链路渗透,让 2026 年春节的小红书社区变成了「评论可发声、搜索语音问」。

AI 语音落地,面临多重关

在小红书这样用户体量庞大的社区,AI 语音的顺利落地需要解决好以下若干问题。

首先需要解决复杂场景下的音频理解

小红书的用户分布极广,存在大量地域方言、口音、不同年龄段或用户群体的使用习惯(如耳语、中英夹杂等情况)。设备差异、背景声音、嘈杂环境、语速同样会影响识别的准确性。

除了语义内容,模型也需要感知用户语音中的情绪、音色特点;音乐歌声中的情绪、流派、风格;自然界的风声、雨声、海浪声等环境音。

如果说听懂是基础,那么有温度地回答是灵魂所在,也是实现自然交互的关键。这就要面临第二大问题:如何让音频生成具备活人感

小红书内容场景风格「千人千面」,要求模型根据场景灵活切换,拒绝一种腔调走天下。情绪表达要「连贯流畅」,不再是孤立地朗读句子,而是能读懂上下文的起承转合;细节语气也要精准拿捏,还原语言的「弦外之音」。

这就要求模型在充分消化理解用户上下文的同时,还要具备相应的情绪感知能力。

最后,响应速度直接影响用户实际体验

如果语音交互处理流程很长,用户说完后总要经历几秒钟的「死寂」,系统才有反应。这种非实时性会将原本连贯的对话切得支离破碎,体验十分生硬。

天然优势之外,更有领先语音技术

对于小红书而言,其打造多样化 AI 语音能力具有天然优势:

一是丰富内容形态,涵盖图文、笔记、视频等多种形式,多元内容结构可以完美承载语音作为交互的中间媒介。二是相较于单纯的短视频平台,在小红书评论区插入语音不会导致体验上的「打断感」。三是小红书的 AI 语音能力集成于主站核心场景,为技术提供了持续创新与优化的空间。

这些优势使得小红书成为 AI 语音落地的理想试炼场,但要达到如今的水平,更有坚实的技术支撑。

据了解,这些技术出自小红书 Super Intelligence-AudioLab团队,负责人为风龙。团队核心布局了语音识别、语音合成、全双工语音交互及 ALLinOne 基座模型、音乐理解生成四大方向,支撑起小红书在各业务场域的应用探索。

在语音识别领域,自研FireRedASR大模型取得中文语音识别开源 SOTA 效果。近期,团队也准备开源全链路 ASR 系统级解决方案 FireRedASR2S,包含静音检测、语种检测、语音识别、标点集成等模块。

在功能上,FireRedASR2 新支持 20 + 方言和口音,在中文普通话和方言公开的 24 个测试集上字错率为 9.67%,相比之下,Doubao ASR 和 Qwen3-ASR-1.7B 的字错率分别为 12.98%、10.12%。

另外,FireRedLID 语种检测模型支持 100 + 语种和 20 + 中文方言,语种准确率达 97.18%,而 OpenAI Whisper 仅为 79.41%。FireRedVAD 支持 100 + 语种,在多语言语音 Fleurs 测试集上,它的 F1 分数为 97.57%,开源 Silero-VAD 为 95.95%。

_小红书,再造一个更有「声」命力的社区_小红书,再造一个更有「声」命力的社区

FireRedASR2 不同版本与竞品模型的平均字错率对比。

在语音合成领域,同样做到中文对话长语音合成 SOTA。自研FireRedTTS2大模型支持 3 分钟以上长对话生成,在多轮对话场景中,其音色稳定性和自然度显著优于多家竞品,代表了目前开源模型的最高水平。

该模型引入的情绪感知能力是语音「活人感」得以实现的关键,当感知到用户情绪低落时,语音中会自然地带有安慰的语调,摆脱机械感。

更早之前的 FireRedTTS1/1S 主打单句生成与克隆,能够精准还原参考音频的特色,目前稳居该领域的开源第一梯队。

FireRedTTS 系列模型与 OpenStoryline AI 视频剪辑的结合,可以提供自然人感的语音生成能力。未来,团队将持续扩展能力至播客、语音翻译等多个场景。

小红书,再造一个更有「声」命力的社区__小红书,再造一个更有「声」命力的社区

表 3 为 FireRedTTS-2 在交互式对话场景微调后的情感控制准确率,表 4 为 zero-shot 播客生成的客观与主观评估。

对于全双工语音交互及 ALLinOne 基座模型,团队推出了业内首个开源、支持私有化部署的全双工语音交互系统FireRedChat。

针对传统 AI 反应慢、乱打断的痛点,系统通过自研的 pVAD(辨别声音)和语义判停 EoT(听懂意思) 技术,精准判断说话时机,端到端延迟低至 2 秒,反应又快又稳。其最大亮点是不依赖外部 API,即可实现一键本地部署。它让 AI 不再是冷冰冰的机器,而是能共情、有温度的伙伴。