俞凯特聘教授 跨媒体语言智能实验室(X-LANCE) 计算机科学与工程系 上海交通大学 邮箱: kai.yu [AT] sjtu [DOT] edu [DOT] cn 地址: 上海市闵行区东川路800号上海交通大学计算机科学与工程系 200240 [English]|[中文] |
现任上海交通大学计算机科学与工程系特聘教授、博导,计算机系智能人机交互研究所所长,上海交通大学人工智能研究院语音及语言处理中心主任,思必驰公司联合创始人及首席科学家。国家高层次人才项目获得者,科技部中青年科技创新领军人才,国家自然科学基金委优青,上海市“东方学者”特聘教授。清华大学自动化系本科(1999)、硕士(2002),英国剑桥大学工程系博士(2006)。2012年回国在上海交通大学创立智能语音实验室(SpeechLab),后扩展并更名为跨媒体语言智能实验室(X-LANCE)。
研究兴趣主要集中在人工智能领域,尤其是以对话为核心的智能语音及自然语言处理,涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体,它可以在复杂的现实环境中运行,处理不确定性,以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文,并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖,Interspeech等多个顶级国际会议的优秀论文奖,以及一系列国际研究评测的冠军。现任IEEE高级会员,作为中国大陆高校首位入选者,曾任 IEEE Speech and Language Processing Technical Committee 委员(2017-2019)。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席,全国人机语音通讯会议大会主席,以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会(CCF)杰出会员,CCF语音对话及听觉专委会主任,中文信息学会(CIPSC)第九届理事会理事,语音信息处理专委会副主任。
相关研究成果不仅在学术界得到了认可,也成功实现了大规模产业化。作为联合创始人创立“思必驰信息科技有限公司”,任首席科学家,进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性,2016年作为中国仅有的两家人工智能创业公司之一,入选高盛发布的全球人工智能报告中的“Key AI Players”;2017年作为中国仅有的三家人工智能公司之一,入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年,思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”,成为国家级的人工智能战略力量。
ASR TDT-KWS: Fast and Accurate Keyword Spotting Using Token-and-duration Transducer
Yu Xi, Hao Li, Baochen Yang, Haoyu Li, Hainan Xu and Kai Yu
ICASSP 2024
Signal Speech Enhancement With Integration of Neural Homomorphic Synthesis and Spectral Masking
Wenbin Jiang and Kai Yu
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1758-1770, 2023
TTS Text-To-Speech With Latent Diffusion
Zhijun Liu, Yiwei Guo and Kai Yu
ICASSP 2023
TTS VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature
Chenpeng Du, Yiwei Guo, Xie Chen and Kai Yu
Interspeech 2022
RAA Towards Duration Robust Weakly Supervised Sound Event Detection
Heinrich Dinkel, Mengyue Wu and Kai Yu
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 887-900, 2021
LLM SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and Kai Yu
AAAI 2024
LLM Large Language Models Are Semi-Parametric Reinforcement Learning Agents.
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao and Kai Yu
NeurIPS 2023
NLP A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL
Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, Kai Yu
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, no. 11, pp. 13796-13813, 2023
NLP OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue
Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu and Kai Yu
Transactions of the Association for Computational Linguistics (TACL), vol.11, pp. 68-84, 2022
NLP LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations
Ruisheng Cao, Lu Chen, Zhi Chen, Yanbin Zhao, Su Zhu and Kai Yu
ACL 2021
Avatar DIFFDUB: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen and Kai Yu
ICASSP 2024
Avatar DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao and Jiang Bian
ACM-MM 2023
GUI Towards Multi-modal Conversational Agents on Mobile GUI
Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu
EMNLP 2022
GUI TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages
Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen and Kai Yu
NAACL 2022