近日,我校计算机学院屈喜文博士在人工智能领域权威期刊《Applied Soft Computing》(中科院一区Top期刊,影响因子8.7)和《Expert Systems with Applications》(中科院一区Top期刊,影响因子8.5)上发表空中手写轨迹生成及识别最新研究成果。我校为论文第一单位,计算机学院屈喜文博士为论文第一作者和通讯作者,所指导的研究生叶明红等为课题的顺利完成做出了重要贡献。以上研究工作得到国家自然科学基金、安徽省信息材料与智能感知实验室开放基金等项目的支持。
基于单目视觉的空中手写是一种新颖且有前景的人机交互方式,具有广泛的潜在应用价值。由于指尖的尺寸非常小并且具有非常少的辨别特征。现有的基于单目视觉的空中手写系统在使用单目摄像头获取的二维图像中确定指尖的位置方面遇到了重大挑战。为了应对这一挑战,课题组提出了一种多尺度通道注意力网络。该网络通过对多尺度通道进行加权,促进了目标检测模型在高分辨率、小尺度通道上的集中,从而有效提高了指尖检测精度。基于该网络课题组实现了一种基于单目视觉的新型空中手写系统。实验结果表明所完成的空中手写系统允许用户自由流畅地书写。
(多尺度通道注意力网络)
(空中手写样本示例)
为有效识别空中手写字符/文本,课题组结合现有识别模型的优缺点,展开了广泛的研究。其中,基于表达的分类模型算法原理简单、可解释性强。然而,现有的基于表达的分类模型对训练样本中噪声不具有鲁棒,且直接使用训练样本作为字典原子,忽略了学习更具鉴别性的字典原子。此外,为了提高表达能力和识别精度,现有的基于表达的分类模型往往需要扩展字典原子的数量,导致存储和计算成本激增。为了获得更具鉴别性和紧凑的字典,课题组提出了基于非负表达分类的判别字典学习算法。课题组利用非负约束来获得字典上每个训练样本的非负表示。在字典学习阶段,对于训练样本,课题组提出的算法最小化训练样本的类内重构误差,同时扩大训练样本与对类间重建误差影响最大的原子之间的距离。实验证明了提出的算法在空中手写字符识别、人脸识别等多种模式识别应用领域以更小的存储消耗,更快的识别速度,获得了更高的识别精度。
(基于非负表达分类的判别字典学习算法流程)
(训练样本与学习得到的原子分布示例)
上述工作将推进空中手写人机交互技术走向实用,为进一步探索模式识别、机器视觉等相关学科的应用领域,促进相关学科的发展提供实践和理论依据。
论文链接:
https://doi.org/10.1016/j.asoc.2024.111801
https://doi.org/10.1016/j.eswa.2024.123998
(撰稿:屈喜文 审核:黄俊 韩军书)