唐申庚  

硕士生导师

学历:博士研究生毕业

办公地点:翡翠湖校区科教楼A904

学科:计算机应用技术

个人简介

唐申庚,讲师,硕士生导师,中国图象图形学学会多媒体专委会委员,中国计算机学会多媒体技术专委会委员,中国计算机学会计算机辅助设计与图形学专委会委员,安徽省人工智能学会计算机视觉专委会秘书长,CCF/CSIG/CAAI会员。研究方向包括手语翻译与生成、视频理解与分析、跨媒体智能推理。2017年本科毕业于湖南师范大学计算机科学与技术专业;2017年至2022年期间,在合肥工业大学计算机应用技术专业硕博连读(导师:洪日昌教授),2022年12月获得工学博士学位。2023年2月起在合肥工业大学计算机与信息学院任讲师。

目前已发表/接收国内外学术论文20余篇,其中在CCF A类会议及IEEE/ACM Trans.期刊上发表/接收高水平学术论文13篇,参与撰写英文学术专著1项,申请中国发明专利12项(已授权7项),登记软件著作权4项。主持安徽省自然科学基金青年基金项目1项、中央高校基本业务经费专项项目2项,参与国家自然科学基金重点项目2项、面上项目2项。担任Medical Artificial Intelligence (MAI) 期刊编委、Eurasia Journal of Science and Technology (EJST) 期刊编委、AAAI 2023~2025程序委员会委员、CONTENT 2022~2025技术程序委员会委员,AIMIDIA 2025技术程序委员会委员,多次担任CVPR、ICCV、ICLR、ACM MM、ACM CHI、ECCV、ICASSP、ICME、IEEE TMM、IEEE TCSVT、ACM TOMM、CVIU、Information Fusion、IET Image Processing等国际会议期刊审稿人。

目前所在团队为合肥工业大学计算机与信息学院(人工智能学院)媒体计算实验室(Laboratory of Multimedia Computing, LMC)。欢迎了解和关注媒体计算实验室计算机视觉小组研究工作(小组主页:https://vut-hfut.github.io/,团队研究方向包括模式识别与人工智能、计算机视觉理解与生成、多媒体分析与跨媒体推理等,常年招收和培养博士研究生、硕士研究生及本科生,欢迎志同道合的小伙伴们加入!(联系邮箱:tangsg@hfut.edu.cn,QQ:1028783685)

欢迎感兴趣的保研/考研同学(2025级9月入学),通过邮件发送简历进行联系(邮箱:tangsg@hfut.edu.cn),可提前加入团队学习。

欢迎准备申报大创项目、想参加学科竞赛的本科同学,通过邮件发送简历/个人基本信息进行联系,可提供研究方向和一定研究基础。


代表性成果:

论文(详见谷歌学术主页:https://scholar.google.com/citations?user=_JZcsnYAAAAJ

[1] Dan Guo, Shengeng Tang, Meng Wang, "Connectionist Temporal Modeling of Video and Language: a Joint Model for Translation and Sign Labeling", International Joint Conference on Artificial Intelligence (IJCAI), 2019: 751-757. (CCF A) [Link][PDF]

[2] Shengeng Tang, Dan Guo, Richang Hong, Meng Wang, "Graph-Based Multimodal Sequential Embedding for Sign Language Translation", IEEE Transactions on Multimedia (TMM), 2022, 24: 4433-4445. (CAAI A, CCF B, 中科院1区, IF=8.4) [Link][PDF]

[3] Shengeng Tang, Richang Hong, Dan Guo, Meng Wang, "Gloss Semantic-Enhanced Network with Online Back-Translation for Sign Language Production", ACM International Conference on Multimedia (ACM MM), 2022: 5630-5638. (CCF A) [Link][PDF]

[4] Peipei Song, Dan Guo, Xun Yang, Shengeng Tang, Erkun Yang, and Meng Wang, "Emotion-Prior Awareness Network for Emotional Video Captioning", ACM International Conference on Multimedia (ACM MM), 2023: 589-600. (CCF A) [Link][PDF]

[5] Peipei Song, Dan Guo, Xun Yang, Shengeng Tang, Meng Wang, "Emotional Video Captioning with Vision-based Emotion Interpretation Network", IEEE Transactions on Image Processing (TIP), 2024, 33: 1122-1135. (CCF A, 中科院1区, IF=10.8) [Link][PDF]

[6] Shengeng Tang, Feng Xue, Jingjing Wu, Shuo Wang, Richang Hong, "Gloss-driven Conditional Diffusion Models for Sign Language Production", ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2024. (CCF B, SCI 1区, IF=5.2) [Link][PDF]

[7] Jingjing Wu, Richang Hong, Shengeng Tang, "Intermediary-Generated Bridge Network for RGB-D Cross-modal Re-identification", ACM Transactions on Intelligent Systems and Technology (TIST), 2024, 15(6): 1-25. (CAA ASCI 1区, IF=7.2) [Link][PDF]

[8] Shengeng Tang, Jiayi He, Dan Guo, Yanyan Wei, Feng Li, Richang Hong, "Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production", AAAI Conference on Artificial Intelligence (AAAI), 2025. (CCF A) [PDF]

[9] Ziheng Zhou, Jinxing Zhou, Wei Qian, Shengeng Tang, Xiaojun Chang, Dan Guo, "Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration", AAAI Conference on Artificial Intelligence (AAAI), 2025. (CCF A[PDF]

[10] Wei Qian, Gaoji Su, Dan Guo, Jinxing Zhou, Xiaobai Li, Bin Hu, Shengeng Tang, Meng Wang, "PhysDiff: Physiology-based Dynamicity Disentangled Diffusion Model for Remote Physiological Measurement", AAAI Conference on Artificial Intelligence (AAAI), 2025. (CCF A

[11] Zhangbin Li, Jinxing Zhou, Jing Zhang, Shengeng Tang, Kun Li, Dan Guo"Patch-level Sounding Object Tracking for Audio-Visual Question Answering", AAAI Conference on Artificial Intelligence (AAAI), 2025. (CCF A) [PDF]

[12] Zhenqiang Zhang, Kun Li, Shengeng Tang, Yanyan Wei, Fei Wang, Jinxing Zhou, Dan Guo, "Temporal Boundary Awareness Network for Repetitive Action Counting", ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2024. (CCF B, SCI 1区, IF=5.2) [Link][PDF]

[13] Xu Wang, Shengeng Tang*, Peipei Song, Shuo Wang, Dan Guo, Richang Hong, "Linguistics-Vision Monotonic Consistent Network for Sign Language Production", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2025. (CCF B, 清华大学信息与通信工程学科顶尖级国际会议) [*Corresponding author] [PDF]

[14] Jiaqi Zhao, Fei Wang, Kun Li, Yanyan Wei, Shengeng TangShu Zhao, Xiao Sun, "Temporal-Frequency State Space Duality: An Efficient Paradigm for Speech Emotion Recognition", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2025. (CCF B) [PDF]

[15] Kezhou Chen, Shuo Wang, Huixia Ben, Shengeng Tang, Yanbin Hao, "Mixture of Multimodal Adapters for Sentiment Analysis", North American Chapter of the Association for Computational Linguistics (NAACL), 2025. (CCF B) 

[16] Jiayi He, Shengeng Tang*, Ao Liu, Lechao Cheng, Jingjing Wu, Yanyan Wei, "Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search", ACM Web Conference Workshop on Multimedia Object Re-ID (WWW-MORE), 2025. (CCF A Workshop[*Corresponding author] [PDF]

著作

[1] Dan Guo, Shengeng Tang, Richang Hong, and Meng Wang, "Sign Language Recognition", Multimedia for Accessible Human Computer Interfaces. Springer, Cham, 2021: 23-59. [Link][PDF]

专利

[1] 郭丹; 唐申庚; 刘祥龙; 洪日昌; 汪萌; 一种基于图卷积的多模态融合手语识别系统及方法, 2023-3-14, 中国, ZL202010049714.7. (授权)

[2] 郭丹; 唐申庚; 刘祥龙; 汪萌; 一种基于多层次语义解析的手语翻译系统及方法, 2023-3-28, 中国, ZL202010103960.6. (授权)

[3] 郭丹; 谷纪豪; 唐申庚; 肖同欢; 曹晨曦; 宋万强; 一种基于深度智能交互的室外视障辅助方法, 2022-4-11, 中国, ZL202210371804.7. (授权)

[4] 郭丹; 曹晨曦; 肖同欢; 唐申庚; 谷纪豪; 黄滨; 一种基于语义分割的择优式方向偏移预警系统和方法, 2022-4-11, 中国, ZL202210374860.6. (授权)

[5] 唐申姚骏王旭修雪玉董晓虎; 谭惟尹; 郭丹; 一种基于多模态语义交互增强的手语生成系统及方法, 2024-11-12, 中国, ZL202410630950.6. (授权)

[6] 唐申庚; 王旭; 程乐超; 郭丹; 洪日昌; 基于跨模态语义关联学习的运动姿态生成方法, 2025-02-11, 中国, ZL202411612365.X. (授权)

[7] 刁云峰姜凯超唐申庚郭丹汪萌一种针对人工智能合成图像的对抗鲁棒鉴伪方法, 2024-10-23, 中国, CN202411482098.9. (授权)

[8] 唐申庚; 肖同欢; 郭丹; 谷纪豪; 曹晨曦; 宋万强; 黄滨; 一种基于图像目标检测和视觉深度估计的碰撞预警方法, 2023-2-27, 中国, CN202310188292.5. (实审)

[9] 唐申庚; 宋万强; 郭丹; 黄滨; 谷纪豪; 肖同欢; 曹晨曦; 一种基于带权无向图的视障人士路线规划方法, 2023-3-6, 中国, CN202310228006.3. (实审)

[10] 宋培培; 杨勋; 徐军军; 唐申庚; 王硕; 一种基于模态间互补性挖掘的多模态情感分析方法, 2024-4-12, 中国, CN202410442083.3. (实审)

[11] 郭丹; 刘泽宽; 郭义臣; 唐申庚; 武梓龙; 文则涵; 陈颖男; 一种基于深度学习的WiFi手语翻译系统及方法, 2022-7-8, 中国, CN202210805408.0. (实审)

[12] 杨勋徐成龙宋培培郝艳宾唐申庚一种基于双网络协作的抗噪音标签图像识别方法, 2024-8-16, 中国, CN202411126873.7. (实审)

软著

[1] 郭丹; 唐申庚; 陈颖男; 武梓龙; 文则涵; 刘泽宽; 基于关键点估计的人体姿态卡通化系统 V1.0, 2022SR0771364, 原始取得, 全部权利, 2022-06-16.

[2] 唐申庚; 黄滨; 郭丹; 谷纪豪; 盲人避障出行辅助系统 V1.0, 2023SR0517944, 原始取得, 全部权利, 2023-05-05.

[3] 唐申庚; 修雪玉; 郭丹; 董晓虎; 姚骏; 谢伟豪; 跨语言手语翻译系统 V1.0, 2023SR1107827, 原始取得, 全部权利, 2023-09-20.

[4] 唐申庚; 周家豪; 程乐超; 郭丹; 多源数据关联查询与推荐系统 V1.0, 2024SR1773469, 原始取得, 全部权利, 2024-11-13.


科研项目:

[1] 安徽省自然科学基金-青年项目,基于跨媒体反绎推理的连续手语翻译方法研究,2024.09.01-2026.08.31,主持

[2] 合肥工业大学学术新人提升计划-A项目,面向多源异构数据的手语视频推理研究,2024.04.01-2025.12.31,主持

[3] 合肥工业大学青年教师科研创新启动专项-A项目,手语视频自动生成技术研究,2023.05.01-2025.04.30,主持


指导研究生:

获奖

[1] IJCAI Challenge on Micro-gesture Analysis for Hidden Emotion Understanding (MiGA-IJCAI),  2nd Place Award at the Micro-gesture Online Recognition Track. August 4th, 2024. 


指导本科生:

获奖(本科生如有参赛兴趣,可详见:计算机类大学生学科竞赛列表

[1] 安徽省高校物联网应用创新大赛-本科生组作品赛, 省级一等奖, 2024年.

[2] 昇腾AI创新大赛暨安徽省生成式人工智能竞赛, 省级二等奖, 2024年.

[3] 中国机器人及人工智能大赛安徽赛区-人工智能创新赛, 省级三等奖, 2024年.

[4] 全国计算机能力挑战赛-人工智能赛道, 国家级三等奖, 2024年.

[5] 全国计算机能力挑战赛-大数据赛道, 华东赛区二等奖, 2024年.

[6] 全国计算机能力挑战赛-大数据赛道, 华东赛区三等奖, 2024年.

[7] 中国机器人及人工智能大赛安徽赛区-人工智能创新赛, 省级三等奖, 2023年.

[8] “互联网+”大学生创新创业大赛-本科生创意组, 校级金奖, 2023年.

大创

[1] 基于AIGC的手语数字人实时生成系统, 省级大创, 2024年.

[2] 基于环境视觉感知的智慧导览系统, 省级大创, 2024年.

[3] 基于视觉感知的交互式手语翻译系统, 校级大创(优秀结题), 2023年. 

教育经历

[1]   2017.9-2022.11

合肥工业大学  |  计算机应用技术  |  工学博士学位  |  博士研究生毕业

[2]   2013.9-2017.6

湖南师范大学  |  计算机科学与技术  |  工学学士学位  |  大学本科毕业

工作经历

[1]   2023.2-至今

合肥工业大学  |  计算机与信息学院(人工智能学院)  |  讲师

社会兼职

  • [1]   2024.7-至今    
    中国图象图形学学会多媒体专委会委员

  • [2]   2024.1-至今    
    安徽省人工智能学会计算机视觉专委会秘书长