趋势1:深度学习走向多模态融合

|2021科技应用趋势 作者:腾讯研究院 2021-01-14

      随着算力的提升,数据的丰富,深度学习应用近年来实现了重大突破。机器通过大量数据的反复训练,提升了在不同感知场景中的“实用性”,助力产业智能化升级。

      深度学习主要包括计算机视觉、语音、知识图谱和自然语言处理等领域。以计算机视觉为例,目前已广泛应用于人脸识别、工业视觉、OCR、内容理解等应用场景。随着计算机视觉技术精度和成熟度的提高,正不断渗透到娱乐、医疗、新零售等更多重点应用场景,推动技术变革和用户体验提升。例如,在泛娱乐领域,以计算机视觉为基础的人脸检测、人脸关键点定位、人脸融合以及人像分割等AI视觉技术,通过对泛娱乐场景各类基础数据的挖掘整合,打造出多项泛娱乐人像特效应用,为泛娱乐行业用户提供各类新奇酷炫的AI视觉特效和娱乐体验。在抗击疫情方面,计算机视觉帮助进行口罩遮挡下的人脸检测;依托人脸比对和活体检测技术构建的全场景人脸核身解决方案,有效解决了用户远程实名制核身验证等难题。

      依托技术成熟和先发行业的经验积累,深度学习技术正在拓展到更广阔的产业领域,并通过搭建深度学习平台提速AI应用开发,提高落地速度。同时,深度学习技术本身,也正在向多模态融合、认知智能、更安全和可解释的AI迈进。

      当前,深度学习正从语音、文字、图像等单模态向多模态智能发展。即通过对听觉、视觉,甚至未来对嗅觉、味觉、心理等难以量化的信号开展多个模态的融合分析,将加强高阶认知技能开发,推进深度学习从感知智能升级为认知智能。多模态融合技术还可以实现对人体姿态、表情和功能等的模拟仿真,打造高度拟人化的数字虚拟人,创造全新的人机交互方式。从端到端打通各个模态之间的关系,可以形成真正多维度交互的智能机器,从而增强对功能属性、物理关系、因果逻辑、动机预测等认知的逻辑推断,让感知智能升级为认知智能。

      此外,从应用安全出发,深度学习还需进一步提升面临对抗攻击时的防御能力。对抗攻击通过施加人类视觉或听觉无法识别的轻微扰动,就可以使正常训练的模型输出置信度很高的错误预测。在深度模型广泛应用的今天,随着对大型数据集的依赖越来越大,需要更多关注深度模型的脆弱性。很多高效的方法已经被提出,用于提升深度模型的可解释性和鲁棒性,特别是对现实物理场景的攻击和防御,是未来研究的重点之一。此外,面对深度合成等技术带来的潜在问题与风险,数字取证技术将有效遏制AI的滥用。近年来,大量的人脸编辑检测算法被提出,一定程度上遏制了AI技术的滥用,提升了人工智能的应用安全。但取证算法对未知伪造算法的检测能力还有待进一步加强。如何提升取证算法对不同人脸伪造算法的鲁棒性,也是未来研究的重点。

前沿杂志
互联网前沿42

无人驾驶汽车正从科幻变成现实。作为第二次机器革命(即如今的人工智能变革)的重要产物和标志,无论从未来5年、10年抑或20年来看,无人驾驶汽车都可能产生巨大影响,这些影响牵扯到人类生活的方方面面,需要政策制定者现在就开始绸缪无人驾驶汽车的未来并应对其潜在影响。

2018-07-11

全站精选