收起
讲座主题: 多智能体博弈与强化学习
摘要:
训练多个强化学习智能体并使其进行博弈是具有挑战性的,主要原因是在求解博弈均衡、例如纳什均衡时不存在多项式解法。在本讲中,我将会介绍在合作博弈以及零和博弈上的最新进展。其中,在合作博弈上,我们研究了基于置信域方法的多智能体强化学习算法。该方法的原理是基于多智能体优势函数分解引理,该引理不需要借助任何假设,例如individual-global-max假设而在合作博弈中普遍成立。在零和博弈中,我会介绍基于policy space response oracle的最新进展。PSRO方法能有效解决零和博弈问题中的非传递性non-transitivity问题,并且为零和博弈的通用求解器提出了理论框架。
嘉宾:
杨耀东博士,北京大学人工智能研究院助理教授、博导,伦敦国王大学客座助理教授。科研领域包括强化学习、博弈论和多智能体系统,重点关注基于强化学习方法的群体智能涌现。他本科毕业于中国科技大学,并于帝国理工大学、伦敦大学学院获得硕士及博士学位。他发表AI顶会论文及专利专著 50 余篇,谷歌引用1700余次,他的工作曾获机器人学习会议 CoRL 最佳系统论文奖、多智能体顶会 AAMAS 最具前瞻性论文奖、AAAI/ACM SIGAI 优博奖参选人 (UCL唯一)、华为英国公司最佳技术突破奖、世界人工智能大会(WAIC 2022)云帆奖璀璨明星、2022年ACM SIGAI China 新星奖(Rising Star Award)。
讲座主题: Challenges of Empirical Risk Minimization in Differential Privacy Model/ 差分隐私模型中经验风险最小化问题的挑战
摘要:
最近的研究表明,大多数现有的学习模型都容易受到各种隐私攻击。因此,机器学习面临的一个主要挑战是如何有效地从敏感数据中学习。解决此问题的一种有效方法是在学习过程中使用差分隐私(DP)技术。作为一种严格的隐私保护技术,差分隐私(DP)现已成为隐私数据分析的标准工具。尽管在理论上发展迅速,但由于数据、隐私模型和学习任务的各种挑战,差分隐私在机器学习的进展仍然缓慢。在这次讲座中,我将以经验风险最小化 (ERM) 问题为例,展示如何克服这些挑战。特别地,我将首先讨论如何克服局部差分隐私 (LDP) 模型中稀疏线性回归数据的高维挑战。然后,我将讨论来自非交互式 LDP 模型的挑战,并展示一系列结果以降低 ERM 的指数样本复杂度。接下来,我将介绍使用在非凸损失函数 ERM 中实现 DP 。最后,我将围绕这些方向讨论一些未来的研究。
简介:
王帝博士目前是沙特沙特阿卜杜拉国王科技大学计算机系助理教授,博士生导师,同时担任统计系兼职教授和隐私意识,社会责任与可信计算实验室负责人。他于2020年在纽约州立大学布法罗分校获得博士学位,2015年于西安大略大学获得硕士学位,2014年在山东大学获得学士学位。他曾访问波士顿大学,哈佛大学,西蒙斯理论计算研究院和加州大学伯克利分校,并且是芬兰赫尔辛基大学,芬兰人工智能中心的客座教授。王帝教授目前的研究领域包括差分隐私,隐私保护机器学习,统计学习理论,量子机器学习,可解释性,鲁棒统计,深度学习,数字医疗,生物信息计算等。他已经以第一作者和通讯作者在人工智能,机器学习和理论计算机顶级期刊和会议例如ICML, NeurIPS, JMLR, IEEE Transactions on Information Theory, Theoretical Computer Science, Machine Learning Journal, PODS, ALT,AISTATS, AAAI, IJCAI, WINE 发表超过40篇论文。 他共计主持了超过1800万的科研项目并且多次担任国际顶级学术会议和期刊的领域主席和审稿人, 并且多次受邀于国际顶级学术会议和学术机构做报告。
1、本活动具体服务及内容由主办方【AIRS 研究院】提供,活动行仅提供票务技术支持,请仔细阅读活动内容后参与。
2、如在活动参与过程中遇到问题或纠纷,双方应友好协商沟通,也可联络活动行进行协助。