快手公开最新视频搜索算法!

快手公开最新视频搜索算法!

 

不知道大家有没有这种经历:

脑子里明明有个画面,或者一句歌词,但就是死活想不起来名字。

比如,我前两天想搜个电影,脑子里只有个画面:“一个男的在雨里吃汉堡,旁边还有条狗”。

我去搜“雨里吃汉堡”,以前出来的全是某快餐店广告,或者天气预报。

那种话到嘴边却搜不出来的感觉,真的太憋屈了。

但最近,我发现搜索好像变神了。

不管是搜那种很虚的形容词,还是很具体的某个极其冷门的直播场景,它好像能读心一样,啪一下就给你呈上来了。

那一瞬间,我真的感觉屏幕对面是不是坐了个懂我的活人。

理智告诉我,这背后,一定是技术的迭代。

没错,这依然是我们熟悉的 AI 大模型在搞事情。

最近快手技术团队搞了个大动作,发了两篇硬核论文,公开了他们的新一代工业级搜索技术。

快手公开最新视频搜索算法!

快手公开最新视频搜索算法!

名字听起来挺高大上的:UniDex(统一语义倒排) 和 UniSearch(统一生成式搜索)。

这俩名字看着是不是挺劝退?

什么“倒排索引”、“语义建模”、“生成式”……

这些词堆在一起,就像是把英文字母表重新排列组合了一遍,每个字都认识,连在一起就想关网页。

但不瞒你说,我硬着头皮啃完这 2 篇名为《UniDex: Rethinking Search Inverted Indexing with Unified Semantic Modeling》和《UniSearch: Rethinking Search System with a Unified Generative Architecture》的论文,居然被燃到了。

因为这不仅仅是技术升级,这简直是把搜索系统的地基给扒了重盖。

今天这篇文章,就是想带你用最通俗易懂的方式,扒开这层技术外衣。

看看为什么现在的搜索能比你肚子里的蛔虫还灵,以及快手这波操作到底牛在哪。

第一招:UniDex,给视频发“身份证”

快手公开最新视频搜索算法!

先说这个 UniDex。它的核心任务是:找得准、找得快。

在它出现之前,搜索引擎用了几十年的核心机制叫倒排索引(Inverted Indexing)

这玩意儿是个啥呢?

举个例子,你去了一个巨大的老式图书馆。

以前的管理员(老算法)特别死板,他手里只有一张写着书名关键词的卡片。

你想找一本关于“很多水的地方”的书,但他手里只有写着“海”、“河”、“湖”的卡片。

你搜“大海”,他能找到;但如果你搜“很多水的地方”,他可能就懵圈了。

因为书名里没这几个字,这就叫表面上的词汇重叠限制了能力。

这就导致了两个问题:

  • 笨: 不懂意思,只认字面。
  • 重: 为了能搜到更多词,得设计一大堆同义词扩展、停用词处理等人工规则,维护起来累死人。

而 UniDex,就像是换了一个过目不忘的天才管理员。

他不再死记硬背书名里的字了,他用了一种叫语义建模的方法。

简单说,就是给每一本书(视频)都发了一个“语义身份证”(Semantic ID,简称SID)。

这个身份证里记的不是字,而是意思。

论文里举了个特别形象的例子:“Apple” 。

这个词,可能是水果,可能是苹果公司,甚至可能是一个唱片公司的名字 。

如果一个视频里提到了 Google、Microsoft 和 Apple,虽然没提“科技公司”这几个字,但 UniDex 一眼就能看出它的语义身份证属于“科技”这一类。也就是会把 Apple 认为是苹果公司。

当你搜相关概念时,虽然字不一样,但“身份证”是对得上的,它就能给你找出来。

这背后的技术原理叫“Model-based 倒排索引” 。

快手直接把地基换了!用模型生成的“语义ID”彻底取代了传统的“关键词”。

为了做到这一点,他们提出了一种名为“UniTouch”的技术,把查询词和视频都变成了离散的ID。

快手公开最新视频搜索算法!

而且,他们用了一种很聪明的匹配策略叫“Max-Max”

快手公开最新视频搜索算法!

啥意思呢?

就是一个视频,只要有一个语义侧面跟你的搜索意图对上了,就能被捞出来。

这就像那个天才管理员,只要听到你描述的任何一个特征(比如“雨里吃汉堡”),他就能瞬间反应过来:“哦!你是要找那个!”

这带来的好处是惊人的。

官方数据显示,UniDex 让倒排系统的响应速度提升了 25% ,而且它还带来了倒排召回视频在精排透出占比提升25%+的增益,这意味着它能比传统倒排多挖掘出四分之一的「漏网之鱼」,让那些原本因为没有关键词匹配而被遗漏的优质内容重见天日。

快手公开最新视频搜索算法!

同时,因为它不再需要存那一大堆乱七八糟的关键词索引,大幅降低了系统存储和计算资源。

这就像原本那个老管理员要戴着老花镜翻半天卡片,现在这个天才管理员扫一眼就给你把书递过来了,而且他还不用占那么大工位。

更绝的是,正如论文中这张对比图所示,它在处理那些平时很难搜准的「长尾」冷门内容时简直是降维打击,直接把结果的稀缺率(RRS)打下来了,让点击率(CTR)蹭蹭往上涨,这效果比优化热门搜索还要显著得多。

快手公开最新视频搜索算法!

第二招:UniSearch,像主厨一样“现做”

再说第二招:UniSearch。

这一招主要用在直播搜索里。

直播搜索有个大难题:它变得太快了。

你在那一秒搜的时候,主播可能刚开始唱歌,下一秒他可能就开始带货了。

快手公开最新视频搜索算法!

传统的搜索是“拼接”出来的——先召回一堆,再粗排,再精排。

这就像做菜。

老算法是:A负责买菜,B负责切菜,C负责炒菜。

结果A买回来的是鱼,B按牛肉的方法切了,C按炒青菜的方法炒了。

大家各干各的,最后端出来的菜(搜索结果),味道总差点意思。

而 UniSearch,搞了个真端到端。

快手公开最新视频搜索算法!

它就像是一个全能主厨,从买菜到上桌,一个人(一个模型)全包了。

它把“视频编码”和“搜索生成”放在一个框架里训练。

快手公开最新视频搜索算法!

当你输入搜索词,UniSearch 不是去仓库里翻找,而是直接生成出它认为最适合你的那个直播间的语义ID,紧接着通过动态Trie树索引找到对应直播间。

快手公开最新视频搜索算法!

这就更神了。

为了让这个主厨更懂食客口味,快手还引入了强化学习。

快手公开最新视频搜索算法!

简单说,就是根据用户的真实反馈(看了多久、有没有进直播间),实时调整主厨的手艺。

效果也是立竿见影:近 2 年最大直播间进间数收益(+3.31%),标志了直播搜索质量的有效提升。

快手公开最新视频搜索算法!

他们也对进间次数进行了下探,发现 58.73% 的提升来自新用户,占总增量一半以上。这表明 UniSearch 返回的结果对不熟悉平台的新用户具有更强的吸引力,具有潜在的拉新能力。

这也意味着,AI 真的帮用户发现了他们当下最想看的那个直播间。

这意味着什么?

这一套组合拳打下来,我最大的感受是:

工业级搜索,正在经历一场去文字化的革命。

以前我们认为搜索就是“字”对“字”的匹配。

但快手这套 UniDex & UniSearch 告诉我们,搜索的本质是“意图”对“内容”的共鸣。

而且,越是那种长尾的、冷门的、以前很难搜出来的东西,UniDex和 UniSearch 的提升效果越明显。

数据显示,对于那些极少被搜到的“长尾查询”,UniDex 的相关性结果稀缺率大幅下降,点击率显著提升。

也就是说,不管你搜的东西多偏门,它都能懂你。

对于我们普通用户来说:

那种“搜了个寂寞”的时刻会越来越少。

你不用再费劲心思去想“关键词”了,你只需要表达你的想法。

哪怕是很抽象的描述,算法也能通过语义ID精准定位到你想要的内容。

对于行业来说:

这是一次教科书级别的降本增效示范。

大家都在喊 AI 落地,但很多时候 AI 是锦上添花甚至画蛇添足,增加了成本却没带来多少收益。

但快手证明了,把底层的地基用 AI 重构,不仅能让系统跑得快 25%(降本),还能实打实地带来业务增长(增效)。

这才是真正的工业级——不是PPT上的炫技,而是真金白银的效率提升。

我发现很多人总觉得 AI 大模型离自己很远。

但其实,它正在悄悄渗透进我们每一次“下拉刷新”、每一次“点击搜索”里。

没有这些算法的进化,在信息爆炸的今天,我们面对的可能不是丰富,而是混乱。

最后,你可以再回头,看看文章开头那个让你云里雾里的技术名词。

结合我今天的大白话拆解,是不是感觉,好像,也没那么天书了?

懂了的朋友,评论区扣个1,让我看看这届读者的含金量。

如果还有哪里不明白,我们在评论区继续聊~

技术虽然高冷,但它的终点,永远是更好的体验。

作者:苍何

来源:苍何

扫一扫 微信咨询

联系我们 青瓜传媒 服务项目

商务合作 联系我们

本文经授权 由青瓜传媒发布,转载联系作者并注明出处:https://www.opp2.com/376781.html

《免责声明》如对文章、图片、字体等版权有疑问,请联系我们广告投放 找客户 找服务 蘑菇跨境
企业微信
运营大叔公众号
运营宝库
运营宝库H5