从看清听清到看懂听懂
时间:2022-03-30 10:48:01 | 来源:行业动态
时间:2022-03-30 10:48:01 来源:行业动态
多模态深度语义理解能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。王海峰表示。
视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤介绍,视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。比如在零售领域,它可以准确判断每个人的动作、行为,真正实现顾客拿起商品就走。未来,视觉语义化技术还可进一步延展,它结合新型的传感器和AI芯片,可以在感知层面和计算层面得到大幅提升;结合手机可以带给用户更佳地使用体验。未来,百度视觉语义化技术将在百度AI开放平台中开放给开发者使用。
语音技术的升级则让机器更好地听懂世界。百度语音技术部总监高亮表示,百度基于远场的语音语义一体化技术取得重大突破,为业界提供更顶尖的远场语音技术。语音语义一体化将远场交互中高频Query识别准确率提升10个点,并保持普通Query识别率不降;多语种混合声学建模基于Deep Peak2大幅提升中英文混合Query识别准确率,相对错误率比业界最好竞品降低20%;新升级的TTS技术业界首创传统拼接技术与Wavenet技术融合方案,保证合成质量的同时大大降低成本,让大规模应用落地成为现实。此外,百度重磅发布远场语音技术低成本解决方案度小云,它基于Deep Peak V2语音识别技术、语音语义一体化技术及LSTM-VAD深度学习语音切分技术,实现业界领先的五级唤醒技术,并拥有基于Wavenet的精致音库,支持远场优化的音频通信技术。未来开发者可以平等便捷地一站式获取百度远场语音能力。
想要让机器像人一样拥有智能,将语言变成知识必不可缺。百度AI技术平台体系执行总监吴甜表示,百度自然语言处理技术经过多年的发展,已形成全面、前沿的格局。百度知识图谱已发展为复杂、多元、全面的多元语义知识图谱,包含实体图谱、行业图谱、事件图谱、关注点图谱、多媒体图谱,其中实体图谱已经能够覆盖通用需求中90%的实体及其属性。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于6万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识,并通过学习真实应用每天产生的知识不断优化。在对话理解方面,百度理解与交互技术平台UNIT升级至2.0,进一步增强冷启动能力,支持像人类一样在对话当中学习,同时开放了第一个工业级对话系统开源框架,降低搭建门槛,让开发者无缝对接云端。百度将持续开源新的技术,提供更灵活便捷的方案,推动自然语言理解技术的创新与发展。