俞凯，上海交通大学


		俞凯 Ph.D. (Cantab) FISCA FIEEE 特聘教授跨媒体语言智能实验室（X-LANCE）主任机器智能研究所所长计算机学院上海交通大学邮箱: kai.yu [AT] sjtu [DOT] edu [DOT] cn 地址: 上海市闵行区东川路800号上海交通大学计算机学院，邮编：200240 [English]\|[中文]

俞凯

Ph.D. (Cantab) FISCA FIEEE

特聘教授
跨媒体语言智能实验室（X-LANCE）主任
机器智能研究所所长

计算机学院
上海交通大学

邮箱: kai.yu [AT] sjtu [DOT] edu [DOT] cn
地址: 上海市闵行区东川路800号上海交通大学计算机学院，邮编：200240

[English]|[中文]

个人介绍

现任上海交通大学计算机学院特聘教授、博导，机器智能研究所所长，思必驰公司联合创始人及首席科学家。语言计算国家人工智能开放创新平台负责人，江苏省语言计算及应用重点实验室主任。国际语音通讯学会会士（ISCA Fellow），国际电子电气工程师协会会士（IEEE Fellow），中国计算机学会杰出会员。国家级高层次人才计划获得者，科技部中青年科技创新领军人才，国家自然科学基金委优青，上海市“东方学者”特聘教授，上海市欧美同学会副会长兼人工智能分会会长，上海市清华校友会副会长。清华大学自动化系本科（1999）、硕士（2002），英国剑桥大学工程系博士（2006）。2012年回国在上海交通大学创立智能语音实验室（SpeechLab），后扩展并更名为跨媒体语言智能实验室（X-LANCE）。

研究兴趣主要集中在人工智能领域，尤其是以对话为核心的智能语音及自然语言处理，涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体，它可以在复杂的现实环境中运行，处理不确定性，以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文，并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖，Interspeech等多个顶级国际会议的优秀论文奖，以及一系列国际研究评测的冠军。作为中国大陆高校首位入选者，曾任 IEEE 语音语言处理技术委员会（Speech and Language Processing Technical Committee，SLTC）委员、IEEE 信号处理分会会议事务理事会理事、IEEE/ACM Transactions on Audio Speech and Language Processing 副主编，现任IEEE 信号处理分会会员事务理事会理事。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席，全国人机语音通讯会议大会主席，以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会（CCF）第十三届理事会理事，CCF语音对话及听觉专委会主任，中文信息学会（CIPSC）第九届理事会理事，CIPSC语音信息处理专委会副主任；中国人工智能产业联盟（AIIA）学术及知识产权组组长，工信部人工智能关键技术和应用评测重点实验室学术委员会委员，第四届全国计算机科学技术名词审定委员会委员，全国信标委用户界面分委会（TC28/SC35）委员，世界顶尖科学家论坛青年科学家委员会委员。

相关研究成果不仅在学术界得到了认可，也成功实现了大规模产业化。作为联合创始人创立思必驰信息科技有限公司，任首席科学家，进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性，2016年作为中国仅有的两家人工智能创业公司之一，入选高盛发布的全球人工智能报告中的“Key AI Players”；2017年作为中国仅有的三家人工智能公司之一，入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年，思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”，成为国家级的人工智能战略力量。

上海交通大学跨媒体语言智能实验室

我们正在招募对智能语音和自然语言处理有浓厚兴趣，并且具备自我驱动力，致力于解决真实世界难题的博士/硕士/本科生和博士后，欢迎发送简历联系。

研究兴趣

语音及音频信息处理
神经语音信号处理，鲁棒语音及声纹识别，高逼真度语音合成，丰富音频分析及听觉认知，多模态语音处理及通用语音大模型
自然语言处理及对话智能体
意图及结构化语言理解，知识问答及阅读理解，统计对话系统，多语种语言处理，语言大模型，智能体系统
多模态大模型及交互
多模态大模型，具身智能体，可控数字人，图形界面理解及交互，科学通用智能体

论文摘选 [Google Scholar][More Papers]

领域综述

LALM A Survey on Speech Large Language Models for Understanding
Jing Peng, Yucheng Wang, Bohan Li, Yiwei Guo, Hankun Wang, YanGui Fang, Yu Xi, Haoyu Li, Xu Li, Ke Zhang, Shuai Wang and Kai Yu
IEEE Journal of Selected Topics in Signal Processing, (JSTSP), vol. 20, no. 1, pp. 2-31, 2026
Speech Recent Advances in Discrete Speech Tokens: A Review
Yiwei Guo, Zhihan Li, Hankun Wang, Bohan Li, Chongtian Shao, Hanglei Zhang, Chenpeng Du, Xie Chen, Shujie Liu and Kai Yu
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), pp. 4184-4204, vol. 48, 2026

语音及音频信息处理

TSE Detect, Attend and Extract: Keyword Guided Target Speaker Extraction
Haoyu Li, Yu Xi, Yidi Jiang, Shuai Wang, Kate Knill, Mark Gales, Haizhou Li and Kai Yu
IJCAI-ECAI 2026
LALM TASU: Text-only alignment for speech understanding
Jing Peng, Yi Yang, Xu Li, Yu Xi, Quanwei Tang, Yangui Fang, Junjie Li and Kai Yu
ICASSP 2026
LALM AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen and Kai Yu
AAAI 2026
TTS VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech
Chenpeng Du, Yiwei Guo, Hankun Wang, Yifan Yang, Zhikang Niu, Shuai Wang, Hui Zhang, Xie Chen and Kai Yu
ICASSP 2025
ASR TDT-KWS: Fast and Accurate Keyword Spotting Using Token-and-duration Transducer
Yu Xi, Hao Li, Baochen Yang, Haoyu Li, Hainan Xu and Kai Yu
ICASSP 2024

自然语言处理及对话智能体

Agent DiSRouter: Distributed Self-Routing for LLM Selections
Hang Zheng, Hongshen Xu, Yongkai Lin, Shuai Fan, Lu Chen and Kai Yu
ICLR 2026
Agent Reducing Tool Hallucination via Reliability Alignment
Hongshen Xu, Zichen Zhu, Lei Pan, Zihan Wang, Su Zhu, Da Ma, Ruisheng Cao, Lu Chen and Kai Yu
ICML 2025
Agent Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback
Hongshen Xu, Zichen Zhu, Situo Zhang, Da Ma, Shuai Fan, Lu Chen and Kai Yu
COLM 2024
LLM Developing ChemDFM as a large language foundation model for chemistry
Zihan Zhao, Da Ma, Lu Chen, Liangtai Sun, Zihao Li, Yi Xia, Bo Chen, Hongshen Xu, Zichen Zhu, Su Zhu, Shuai Fan, Guodong Shen Kai Yu and Xin Chen
Cell Reports Physical Science, vol. 6, issue. 4, pp. 102523, 2025
LLM Large Language Models Are Semi-Parametric Reinforcement Learning Agents.
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao and Kai Yu
NeurIPS 2023
NLP A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL
Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, Kai Yu
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, no. 11, pp. 13796-13813, 2023

多模态大模型及交互

GUI MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation
Zichen Zhu, Hao Tang, Yansi Li, Dingye Liu, Hongshen Xu, Kunyao Lan, Danyang Zhang, Yixuan Jiang, Hao Zhou, Chenrun Wang, Situo Zhang, Liangtai Sun, Yixiao Wang, Yuheng Sun, Lu Chen and Kai Yu
NAACL 2025
Avatar VQTalker: Towards Multilingual Talking Avatars Through Facial Motion Tokenization
Tao Liu, Ziyang Ma, Qi Chen, Feilong Chen, Shuai Fan, Xie Chen and Kai Yu
AAAI 2025
MLLM ChemDFM-X: towards large multimodal model for chemistry
Zihan Zhao, Bo Chen, Jingpiao Li, Lu Chen, Liyang Wen, Pengyu Wang, Zichen Zhu, Danyang Zhang, Yansi Li, Zhongyang Dai, Xin Chen and Kai Yu
Science China Information Science, 67: 220109, 2024
GUI Towards Multi-modal Conversational Agents on Mobile GUI
Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu
EMNLP 2022

专业资质与服务任职

国际电子电气工程师协会 (IEEE)

IEEE 会士（IEEE Fellow）
IEEE 信号处理分会会议事务理事会理事 (2024-2025)
IEEE 信号处理分会会员事务理事会理事 (2024-2026)
IEEE 语音及语言处理技术委员会委员 (2017-2019)
IEEE/ACM Transactions on Audio Speech and Language Processing 副主编（2019-2024）
ICASSP 2025 苏州卫星会议，大会主席

国际语音通讯学会 (ISCA)

ISCA 会士（ISCA Fellow）
Interspeech 2020，程序委员会主席

中国计算机学会 (CCF)

CCF 杰出会员
CCF 第十三届理事会理事
CCF 语音对话及听觉专委会主任
CCF 大模型论坛常务委员

中文信息学会 (CIPSC)

CIPSC 第九届理事会理事
CIPSC 语音信息处理专委会副主任

产业界服务任职

科技部语言计算国家人工智能开放创新平台主任
工信部人工智能关键技术和应用评测重点实验室学术委员会委员
全国信标委用户界面分委会（TC28/SC35）委员
第四届全国计算机科学技术名词审定委员会委员
中国人工智能产业联盟（AIIA）学术及知识产权组组长
中国语音产业联盟技术工作组副组长

其它服务任职

上海市欧美同学会副会长
上海市欧美同学会人工智能分会会长
上海市清华校友会副会长
世界顶尖科学家论坛青年科学家委员会委员

学术会议服务

ICASSP

IEEE 语音语言处理技术委员会委员
ICASSP 2025 卫星会议大会主席

Interspeech

程序委员会主席，研究领域主席（语音识别/对话系统）

EUSIPCO

研究领域主席（语音处理）

ACL

滚动审稿机制下的（高级）领域主席/主审稿人/执行编辑（对话系统/语音处理）

NAACL

滚动审稿机制下的领域主席/主审稿人/执行编辑（对话系统）

EMNLP

滚动审稿机制下的领域主席/主审稿人/执行编辑（对话系统）

NeurIPS

研究领域主席

SigDial

程序委员会主席

ICMI

程序委员会主席

全国人机语音通讯会议（NCMMSC）

大会主席，程序委员会主席

评审人

期刊

IEEE/ACM Transactions on Audio, Speech, and Language Processing
IEEE Transactions on Pattern Analysis and Machine Intelligence
IEEE Signal Processing Letters
IEEE Signal Processing Magazine
Speech Communication
Computer Speech and Language
计算机学报
自动化学报

会议

ICASSP, Interspeech, IEEE ASRU, IEEE SLT, APSIPA, ISCSLP, NCMMSC
ACL/NAACL/EACL, EMNLP, SigDial
AAAI, NeurIPS

项目及奖项

国家自然科学基金委、科技部、工信部、教育部、中科院
香港研究资助局（RGC）
以色列科学基金会（ISF）
波兰自然科学基金会
英国工程及物理科学研究理事会（EPSRC）
新加坡科学及技术研发局下属科学及工程研究理事会（Science and Engineering Research Council, Agency for Science and Technology Research）

获奖及荣誉

最优论文奖

ISCA Computer Speech and Language 最优期刊论文奖
EURASIP Speech Communication 最优期刊论文奖
International Symposium on Chinese Spoken Language Processing 最优会议论文奖
Interspeech 最优会议论文奖
IEEE SLT 最优会议论文奖
全国人机语音通讯会议（NCMMSC）最优会议论文奖

国家及省部级奖励及荣誉

高层次人才特殊支持计划、高层次青年人才计划
中青年科技创新领军人才 （科技部）
优秀青年科学基金 （自然科学基金委）
中国专利奖优秀奖 （国家知识产权局）
“东方学者”特聘教授 （上海市教委）

专业协会奖励及荣誉

ISCA Distinguished Lecturer (International Speech Communication Association)
青竹奖 （中国计算机学会）
前沿学科讲座（ADL）杰出讲者 （中国计算机学会）
吴文俊人工智能科技奖进步奖二等奖 （中国人工智能学会）
吴文俊人工智能科技奖自然奖一等奖 （中国人工智能学会）

其它奖励及荣誉

科学中国人年度人物（2016） （《科学中国人》杂志社）

Last updated on 2026-05-15.