研究方向
当前位置:
中文主页
>>研究方向
手语翻译与生成
本方向研究包括手语视频的理解与分析、手语视觉内容到文本语句的翻译以及根据文本语句生成手语视觉表达。
手语视频翻译主要是指输入一段视频,网络对其进行动作识别和序列对齐,最终输出一段文本语句。其研究的重点在于对视频中的时空关系进行建模、从视觉特征序列到文本词序列的跨模态序列对齐、口语化语句的自动翻译等,与之相似的研究任务包括人体动作视频的分类识别、视频字幕(描述)的自动化生成等。
手语视频生成又进一步可以细分为手语动画视频合成、手语姿态视频生成以及逼真手语视频生成,该任务与当前火热的人工智能内容生成技术(AIGC)联系紧密。其中,手语姿态视频生成常常作为逼真手语视频生成的中间过程,也被当前的视觉生成领域研究者广泛关注。该方向的研究重点在于文本语义的挖掘与表征、人体姿态动作的细节建模、跨模态序列的对齐以及对生成视频真实性和连贯性的把控。