研究领域主要包括:多媒体信息处理、多媒体安全及伪造检测、音视频多模态信息处理、人工智能
实验室科研经费充足,凡参与项目的学生均提供助研津贴,团队管理人性化,与多个国内外研究机构建立了良好的合作关系,欢迎对音视频信息处理、多媒体安全、深度学习等感兴趣的同学联系创新创业项目、实习以及报考研究生。
主持的项目有:
国家自然科学基金面上项目:视听觉多对齐机制下跨模态生成方法研究(61972127)
国家自然科学基金面上项目:基于音视频关联的交叉感知驱动选择性注意机制研究(61672201)
国家自然科学青年基金:具有情感的可视语音中基于耦合关系的音视频关联方法的研究(61105076)
安徽省重点研发计划国际科技合作专项:基于传感器融合的地铁轮轨故障诊断与振动影响研究(202104b11020013)
安徽省科技攻关重大专项:“畅行”交通云服务关键技术与系统研发(15czz02074)
安徽省自然科学基金:基于视频检测跟踪的异常车辆警务联动控制方法的研究(1408085MKL76)
安徽省自然科学基金:可视语音中基于发音特征的音视频关联模型的研究(11040606M127)
安徽省科技攻关语音产业创新专项:具备友好互动能力的情感感知和情感自然表达关键技术与系统(11010202192)
第51批中国博士后科学基金面上资助:智能人机语音交互中基于文本与语音的情感融合研究(2012M511402)
企业委托项目:智能交通驾驶员安全带检测系统、智能交通驾驶员行为分析预警系统、个性化语音合成系统等。
教育部产学合作协同育人:融合视觉信息的多模态语音信号处理研究(201901296001)
中央某部委项目:面向XXX真伪识别技术
参与的项目有:
“863”国家高技术研究发展计划资助项目:中文情感语义计算技术与系统(2012AA011103),
国家973预研项目:普适个性化信息处理基础理论和方法研究(2009CB326203)。
授权发明专利有:
Method, System and Electronic Device for Processing Audio-Visual Data(美国专利),US17038311
音视频数据处理方法、系统、电子设备及存储介质,ZL202010257755.5
基于韵律特征参数和情感参数关联性的语音情感修正方法,ZL201310100284.7;
一种基于属性空间的人脸可视化特征表征方法,ZL201310192441.1;
一种驾驶员多种行为预警系统及危险评估方法,ZL201510054227.9;
一种基于Adaboost的安全带检测方法,ZL201410174018.3;
一种基于声谱图显著性检测的音频识别方法,ZL201510054228.3。
主要代表性论文:
[1] Pengcheng Zhao, Jinxing Zhou, Yang Zhao, Dan Guo*, Yanxiang Chen*. Multi-modal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing. in Proc. of the 39th AAAI Conference on Artificial Intelligence (AAAI)(人工智能领域顶级会议), Philadelphia, USA, 2025.
[2] Pengcheng Zhao, Yanxiang Chen*, Dan Guo, Yuanzhi Yao. Text-infused Audio-visual Video Parsing with Semantic-aware Multimodal Contrastive Learning, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)(语音信号处理领域顶级会议), Hyderabad, India, 2025.
[3] Yanxiang Chen*, Pengcheng Zhao, Meibin Qi, Yang Zhao, Wei Jia, and Ronggang Wang ,“Audio Matters in Video Super-Resolution by the Implicit Semantic Guidance”, IEEE Transactions On Multimedia (TMM)(多媒体领域顶级期刊), 24: 4128-4142, 2022.
[4] Fan Li, Yanxiang Chen*, Haiyang Liu, Zuxing Zhao, Yuanzhi Yao, Xin Liao. “Vocoder Detection of Spoofing Speech Based on GAN Fingerprints and Domain Generalization”, ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)(人工智能领域著名期刊), 20(6): 1-20, 2024.
[5] Yanxiang Chen*, Tam V. Nguyen, Mohan Kankanhalli, Shuicheng Yan, Meng Wang, “Audio Matters in Visual Attention”, IEEE Transactions On Circuits and Systems for Video Technology (TCSVT)(视频处理领域顶级期刊), 24(11): 1992-2003, 2014.
暂无内容
暂无内容
暂无内容
暂无内容