图像识别是人工智能研究的领域吗(图像处理和人工智能的关系)

2022-09-27 本文已影响 373人

来自HSE大学和莫斯科理工大学的研究人员发现，AI模型由于缺乏与各自生理学的紧密耦合，无法代表人类视觉的特征，因此它们在识别图像方面的能力较差。研究结果发表在第七届国际信息和通信技术大会论文集上。

为了了解机器对图像的感知与人类感知有何不同，科学家将经典视觉错觉的图像上传到IBMWatsonVisualRecognition在线服务。其中大部分是几何轮廓，部分被背景颜色的几何形状隐藏。系统试图确定图像的性质，并在其响应中指出确定性的程度。

事实证明，人工智能无法识别任何虚构的图形，除了彩色的虚构三角形。由于与背景的高对比度，它被正确识别。

“在现实生活中可以找到与我们在实验中使用的对象相似的对象，”HSE计算机科学学院大数据分析方法实验室的分析师、该研究的作者VladimirVinnikov说。“例如，汽车或飞机的自动驾驶仪感知拖车或无线电塔，在夜间仅由标记灯指示，就像我们感知想象的几何形状一样。”

人的眼睛不由自主地不断移动，其视网膜的感光面呈半球状。如果图像是矢量，即如果它包括参考点和连接它们的曲线，人们可以看到错觉。由于不断的眼球运动，人类的想象力将完成画面，这是我们视觉的生理特征。

在光电系统中，一切都以不同的方式排列。它们的光敏矩阵是扁平的，通常是矩形，而且透镜系统本身不像人眼那样自由移动。因此，人工智能无法完成连接几何错觉碎片的虚构线条。机器视觉只看到实际描绘的内容，而人们根据其轮廓在想象中完成图像。

如今，神经网络图像识别系统正在商业领域积极传播。然而，机器如何准确识别图像的问题仍然悬而未决。人的生命可能取决于识别的准确性。例如，如果汽车或飞机的自动驾驶仪无法识别相对于背景对比度较低的物体并且无法及时躲避障碍物，则可能会发生事故。

科学家认为，机器图像识别的不准确性是可以纠正的。例如，它们可以通过模拟允许眼睛看到二维和三维场景的眼球运动的生理特征来补充对表示像素网格的光栅图像的识别。另一种方法是添加图像的矢量描述，这将有助于对机器进行编程以沿着矢量指定的轨迹绕过图像。

“想象中的物体绝对应该用作依赖于照片和视频流识别的系统中的测试，例如，在汽车或无人机的自动驾驶仪中。这将有助于避免与在工业和工业中使用机器智能系统相关的风险。运输系统，”Vinnikov说。返回销售工作总结列表

展开剩余（

）