CN FR EN
  • 学院概况
  • 人才培养
  • 科学研究
  • 党群工作
  • 菁菁校园
  • 报考我们

科研速递|Guillaume Salha Galvan副教授在人工智能顶会ICML2025发布强化学习探索算法新成果

07.17/2025 407

 

 

近日,上海交通大学巴黎卓越工程师学院长聘教轨副教授Guillaume Salha Galvan在人工智能顶级国际会议——第42届国际机器学习大会(ICML 2025)上发表重要成果。其合作撰写的研究论文“Exploring Large Action Sets with Hyperspherical Embeddings using von Mises-Fisher Sampling”成功入选本届大会,并于本月在加拿大温哥华正式发布。

 

该研究聚焦于强化学习中的大规模动作空间问题,提出了vMF-exp 方法,一种基于超球嵌入向量表示的高效探索策略。该方法在处理大规模动作空间时,相较传统的 Boltzmann 采样在探索效率与可扩展性方面表现更优。成果已成功应用于全球领先的音乐流媒体平台 Deezer,显著提升了数百万用户的个性化音乐发现体验,充分体现了学术研究在行业中的应用价值。

 

Guillaume Salha Galvan副教授为该论文的共同通讯作者。本项研究由其与法国的多个合作伙伴共同完成,合作方包括巴黎多芬纳大学(Université Paris Dauphine, PSL)LAMSADE实验室的Walid Bendada博士(论文第一作者)和Tristan Cazenave教授,以及音乐流媒体公司Deezer的Romain Hennequin博士、Thomas Bouabça博士与 Théo Bontempelli。

 

 

 

研究背景

“探索”机制是强化学习的核心环节,使智能体能够主动感知环境,并识别最优行为路径。然而,随着可选动作数量的急剧增长,探索过程面临越来越高的复杂性与越来越大的计算负担。

 

以音乐流媒体平台为例,如Spotify、Deezer或腾讯音乐,通常通过预先计算的歌曲嵌入向量来为用户推荐歌单。这类方法虽然高效,本质上却偏向静态,难以根据用户实时行为(点赞、跳过)进行动态调整。若将推荐任务建模为强化学习问题,系统可实现基于用户反馈的持续优化,但随之而来的挑战是:智能体需从数百万首候选歌曲中完成实时决策,探索难度与计算开销大幅上升。

 

传统探索策略“Boltzman探索”在此规模下计算代价高昂,难以落地;而随机策略虽具一定可扩展性,却常引发无关内容推荐,影响用户体验。现实工业系统多采用离线批量处理机制,资源受限进一步限制了确定性或朴素策略的部署。因此,业界通常采用候选池截断采样等近似手段,但如何在保障效率的同时,提升对大规模动作空间的探索质量,始终是一项难题——本研究正是为破解这一关键瓶颈而提出创新解法。

 

创新成果

本研究提出了vMF-exp,一种面向强化学习中大规模动作集合的高效探索方法,尤其适用于动作以超球嵌入向量表示的任务场景。该方法基于von Mises-Fisher(vMF)分布在单位超球面上采样方向,并探索邻近该方向的动作,具备良好的计算效率与扩展性,能够支持百万级候选动作的快速选择。

 

图1:

 

论文对vMF-exp方法进行了系统的数学分析,证明其在大规模探索任务中具备多项理想特性。具体而言,vMF-exp 不局限于固定邻域,而是依据嵌入相似性灵活采样,在保证扩展性和效率的同时提升探索质量。在理论分析框架下,vMF-exp的渐近探索行为可与Boltzmann策略对齐,并突破了后者在大规模环境下的计算瓶颈,从而成为一种更具实际可行性的替代方案。

 

研究不仅提供了理论支撑,也通过实证验证了该方法的有效性。vMF-exp在多个合成数据集与实际应用场景中的公开数据集上表现优异,并已在全球音乐流媒体平台 Deezer 中实现大规模部署。在该平台,vMF-exp已稳定运行数月,为数百万用户提供个性化的“灵感歌单”推荐,探索范围覆盖数百万首歌曲(图2)。该系统已通过线上A/B测试验证其在真实环境中的可用性与推荐效果,充分体现了 vMF-exp在大规模、自适应音乐发现任务中的应用价值。

 

图2:Deezer 平台的“Mixes Inspired By”推荐系统界面。系统根据用户喜欢的歌曲呈现个性化推荐,点击任意歌曲即可生成一份“灵感来源” 推荐歌单。vMF-exp方法在该系统的生产环境中已稳定运行数月,用于生成推荐内容并支持对百万级曲库的智能探索。

 

作者介绍

 

 

 

Guillaume Salha Galvan,上海交通大学巴黎卓越工程师学院长聘教轨副教授,曾在法国音乐流媒体平台Deezer担任研究科学家,在人工智能应用与产业转化方面积累了丰富经验。他于巴黎综合理工学院(École Polytechnique, IP Paris)获计算机科学博士学位,此前在巴黎萨克雷高等师范学院(ENS Paris-Saclay)与法国国家统计与经济管理学院(ENSAE Paris)联合培养,获得数学、计算机视觉与机器学习双硕士学位。其研究长期聚焦于深度学习、图数据挖掘与音乐推荐系统,研究成果已广泛应用于Deezer的大规模推荐系统,显著提升数百万用户的音乐探索体验。迄今已发表近30篇高水平论文,涵盖人工智能与数据科学多个前沿方向。

 

 

全文链接

arXiv: https://arxiv.org/pdf/2507.00518 

ICML: https://icml.cc/virtual/2025/poster/45873

 

 

 

来源|科研办

文图|高佩、Guillaume Salha Galvan提供

编辑|李雷

责编 | 周向雨