报告人:闫芮,牛津大学计算机系博士后
报告题目:具有神经感知机制的部分可观马尔可夫决策过程与随机博弈
报告时间:2024年1月2日(周二)下午14:00-16:00
报告地点:学院路校区新主楼E706会议室
主办单位:人工智能研究院,自动化科学与电气工程学院报告摘要:
神经-符号(Neuro-symbolic)人工智能是将传统符号技术与神经网络相结合的新兴领域。本报告研究了神经-符号人工智能在不确定条件下序列决策中的应用。首先引入神经-符号部分可观马尔可夫决策过程(Neuro-symbolic partially observable Markov decision processes, NS-POMDPs),用于建模一个使用神经网络感知连续状态环境并符号化地做出决策的智能体,进一步研究了该模型在折现累积奖励下的最优策略问题。由于该问题的值函数定义在连续状态下的信念(belief)上,提出了一种新的基于多面体分段线性凸的表示形式(P-PWLC),并将贝尔曼备份扩展到该表示形式。还提出了神经-符号部分可观随机博弈模型(Neuro-symbolic partially observable stochastic games, NS-POSGs),这是连续空间随机博弈的一种特例,明确地结合了神经网络感知机制。研究了在一方完全主导(one-sided)下的两人零和博弈,包括一个具有离散感知的部分知情智能体和一个具有连续观察的完全知情智能体。提出了一种新的基于信念点的方法逼近one-sided NS-POSGs在均衡下的值函数。
报告人简介:
闫芮博士,现任牛津大学计算机系博士后。2015年于北京航空航天大学自动化科学与电气工程学院获得工学学士学位, 2021年于清华大学自动化系获得工学博士学位。2019年2月至2020年2月于美国加州大学圣塔芭芭拉分校国家公派留学。自2021年3月起,加入牛津大学计算机系担任博士后。长期从事无人集群协同对抗博弈的基础理论与应用研究,包括无人集群区域协同动态攻防博弈、多智能体神经-符号随机博弈、多智能体强化学习、概率验证与综合等。担任多个IEEE Trans汇刊和国际顶级会议AAAI、IEEE CDC/ACC等的审稿人,目前已发表学术论文25篇,包括 IEEE TAC(长文)、Automatica(长文)、IEEE TRO(长文)、IEEE TCYB、UAI、IEEE CDC等国际顶级期刊和会议。曾获中国自动化学会优秀博士学位论文提名奖、清华大学优秀博士学位论文奖。