一、AI应用领域AI目前主要的应用领域有3个方向,包括:计算机视觉、语音交互、自然语言处理 。
1.1 计算机视觉(CV)计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力 。
计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力,替代部分人力工作,节省人力成本并提升工作效率 。传统的计算机视觉基本遵循图像预处理、提取特征、建模、输出的流程,不过利用深度学习,很多问题可以直接采用端到端,从输入到输出一气呵成 。
(1)研究内容
- 实际应用中采集到的图像的质量通常都没有实验室数据那么理想,光照条件不理想,采集图像模糊等都是实际应用中常见的问题 。所以首先需要校正成像过程中,系统引进的光度学和几何学的畸变,抑制和去除成像过程中引进的噪声,这些统称为图像的恢复 。
- 对输入的原始图像进行预处理,这一过程利用了大量的图像处理技术和算法,如:图像滤波、图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于场景的基本特征;这一过程还包含了各种图像变换(如:校正)、图像纹理检测、图像运动检测等 。
- 根据抽取的特征信息把反映三维客体的各个图象基元,如:轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学上的和几何学上的关系——称之基元的分割和关系的确定 。
- 计算机根据事先存贮在数据库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体——称之为模型匹配,以及根据图象中各基元之间的关系,在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述 。
计算机视觉的应用场景非常广,例如:无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等 。最近B站新上线的弹幕防挡脸功能,即在播放视频时弹幕经过人脸则自动隐藏,也是应用了CV,这个小功能对B站核心价值之一的弹幕进行了进一步优化,大大提升了用户体验 。
(3)瓶颈
- 目前在实际应用中采集到的数据还是不够理想,光照条件、物体表面光泽、摄像机和空间位置变化都会影响数据质量,虽然可以利用算法弥补,但是很多情况下信息缺失无法利用算法来解决 。
- 在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事,尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个难点 。除了得到物体的三维信息外,在现实世界里,物体间相互遮挡,自身各部位间的遮挡使得图像分拆更加复杂 。
- 预知识设置的不同也使得同样的图像也会产生不同的识别结果,预知识在视觉系统中起着相当重要的作用 。在预知识库中存放着各种实际可能遇到的物体的知识模型,和实际景物中各种物体之间的约束关系 。计算机的作用是根据被分析的图象中的各基元及其关系,利用预知识作为指导,通过匹配、搜索和推理等手段,最终得到对图象的描述 。在整个过程中预知识时刻提供处理的样板和证据,每一步的处理结果随时同预知识进行对比,所以预知识设置会对图像识别结果产生极大影响 。
- 旷视face++人工智能开放平台(提供人脸识别、人体识别、文字识别等技术方案) :https://www.faceplusplus.com.cn/
- 商汤科技(提供人脸和人体分析、通用与专业图像分析、视频处理等技术以及提供智慧安防、智能终端、智能金融等解决方案):https://www.sensetime.com/core
- 腾讯优图AI开放平台(提供人脸及人体识别、图像识别、文字识别等技术及天眼安防、天眼交通等解决方案):https://open.youtu.qq.com/#/open
- 百度AI开放平台(提供人脸及人体识别、图像识别、文字识别、图像审核等):http://ai.baidu.com/tech/imagerecognition
推荐阅读
- 一份不可多得的 TypeScript 学习笔记
- 儿童能喝普洱茶吗,喝普洱茶能减肥吗这样喝也许会有一点点效果
- 如何打造一款得心应手的VS Code?
- 一点隐私都没有了?聊天记录打码也不安全:大神亲自下场破解
- 局域网共享怎么设置都访问不了?别着急:一篇文章讲清了
- 水土不服的症状长痘痘
- 来月经前一天的症状
- 怀孕33天什么症状
- 俞敏洪|俞敏洪称新东方还有钱处理意外情况:努力拓展新业务 相信一切都会过去
- 腾讯|提供微信公众号“刷量”服务 一公司被判赔腾讯100万元