
1.4 人工智能的应用方向
1.4.1 深度学习应用的四大领域
当前,深度学习主要应用在如下四大领域:图像处理、语音处理、自然语言处理(Natural Language Processing,NLP)和知识图谱(Knowledge Graph,KG)。
1.图像处理
常见的图像处理有人脸识别、物体识别、光学字符识别(Optical Character Recognition,OCR)等。
人脸识别指的是根据图像识别一个人脸图像和目标数据库里的哪个人最接近,从而判断这个人的身份。我们在电影中经常看到的根据监控录像寻找特定人的踪迹就是应用的人脸识别。
物体识别指的是从图像中识别出不同的物体,让计算机根据物体的不同性质分别做出不同的应对。物体识别已被应用在汽车自动驾驶上,它可以给汽车自动驾驶算法提供接近甚至超过激光雷达目标识别的效果。物体识别还可以用于在偏远的森林里安装红外摄像机来捕捉濒临灭绝的野生动物的踪迹。
OCR指的是对图像中印刷或手写的文字进行识别,从而让计算机能像人一样读取图像中的文字,然后进行相应的处理。OCR的应用十分广泛。图书馆里海量图书的电子化,依靠的就是越来越精确的OCR技术。在现实生活中,车牌号码的识别,也得益于OCR的普及。OCR既可以在云端进行,也可以在远端(边缘)进行,具体采用哪种方式需要综合考虑应用的场景、费用、效率等因素。
2.语音处理
语音处理主要包括语音识别和语音合成,涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等知识。语音处理技术在我们日常生活中的典型应用有智能音箱、电话自动机器人客服、语音输入转文字、自动朗读机、网页语音播报、手机语音助手等。
3.自然语言处理
自然语言处理是指通过对自然语言的处理,使得计算机能够理解自然语言的含义。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等对待处理语料进行分词,形成以最小词性为单位且富含语义的词项。自然语言处理是一门典型的交叉学科,涉及语言科学、计算机科学、数学、认知学、逻辑学等。
4.知识图谱
知识图谱主要用于描述现实世界中的实体(即客观世界中的具体事物,如张三、李四等)、概念(即人们在认识世界的过程中形成的对客观事物的概念化表示,如人、动物等)及事物间的客观关系。
知识图谱由节点和边构成,节点表示现实中存在的实体,边则表示实体之间的“关系”。
知识图谱和深度学习的关系主要体现在知识图谱的构建过程中。知识图谱和深度学习的另一个关联在于,可以将图计算和深度神经网络相结合来进行图结构的预测和大型图谱中图节点的分类。
1.4.2 人工智能的应用场景
人工智能的常见应用场景包括对话系统、智能教育、艺术创作、智能推荐系统和自动驾驶等。
1.对话系统
人工智能可以用于对话系统和聊天机器人。最早的人工智能应用之一就是聊天机器人,它通过允许人与机器进行对话,弥合了人与技术之间的通信鸿沟,使得机器可以根据人提出的请求或要求采取行动。早期的聊天机器人遵循一些脚本规则,这些脚本规则告诉机器要根据关键词采取什么行动。
机器学习和自然语言处理技术使聊天机器人更具交互性和生产力。这些较新的聊天机器人能更好地响应用户的需求,并越来越像真人一样交谈。微软小冰和一些电商网站的智能客服就是将人工智能用于对话系统和聊天机器人的典型实例。
2.智能教育
智能教育也是人工智能常见的应用场景,比如智能课堂——利用人脸识别技术将学生与他们的个人信息相对应,并利用动作识别技术识别学生的听课状态。此外,还可以利用OCR技术实现“一键搜题”等功能,对上传的题目进行智能判别。所有个人的学习数据都可以存储保留,形成个人的教育档案,以进行个人定制化的教育服务,所有的教育数据也可以陪伴学习者终身。
3.艺术创作
人工智能在艺术创作上也占据一席之地。随着图像和语音生成算法的崛起,人工智能可以进行多种多样的艺术创作。只需要输入想要的风格和内容,人工智能就会自动生成相应的画作或乐曲。图1-2展示了人工智能生成的画作。Soundraw等平台可以利用人工智能制作音乐。

图1-2 人工智能画作
4.智能推荐系统
网络上每天都在产生海量的信息,人们想要迅速、准确地找到自己感兴趣的内容或商品越来越难,而且绝大多数用户往往只关注主流内容和商品,而忽略相对冷门的大量“长尾”信息,导致很多优秀的内容或商品没有机会被人发现和关注。如果大量的长尾信息无法得到流量,信息生产者就会离开平台,影响平台生态的健康发展。此时,如果平台能够高效匹配用户感兴趣的内容或商品,就能提高用户体验和黏性,获取更多的商业利益。
人工智能可以帮助平台自动生成用户的画像,并精准地向用户推荐合适的内容和商品。当前,智能推荐系统在精准用户获取、用户个性化推荐、用户流失预警中发挥着十分重要的作用。
5.自动驾驶
火热的自动驾驶技术可以说将人工智能的应用发挥到了极致,它几乎用到了人工智能领域的最新理论和技术成果。
人们投入如此高的热情来研究自动驾驶,主要有4个方面的原因:第一,自动驾驶可以使新能源汽车从根本上摆脱驾驶员的“非节能”驾驶方式;第二,自动驾驶可以把驾驶员从驾车这一技术工种中解放出来,降低汽车的使用门槛,开拓汽车市场的容量;第三,自动驾驶可以大幅提高汽车资源的利用率,从而降低汽车的使用成本;第四,自动驾驶可以提高驾驶安全和道路安全,减少恶性交通事故。
众多中外汽车厂商都在自动驾驶赛道有所布局。国外的有Waymo、特斯拉、Uber等,国内的有百度、小马智行等。大家都认为自动驾驶是我们走向智能汽车的重要目标。
根据自动驾驶的自动化和自主化程度,自动驾驶分为5个级别。
第1级,驾驶员辅助。这是自动驾驶的最低级别。车辆具有单独的自动化驾驶员辅助系统,如转向或加速(巡航控制)。自适应巡航控制系统可以让车辆与前车保持安全距离,驾驶员负责监控驾驶的其他方面(如转向和制动),因此符合1级自动驾驶标准。
第2级,部分自动驾驶。车辆具有高级驾驶辅助系统(Advanced Driving Assistant System,ADAS),能够自动控制转向及加速或减速。因为有驾驶员坐在汽车座位上,并且可以随时控制汽车,所以这一级别的自动驾驶还算不上无人驾驶。特斯拉的Autopilot和凯迪拉克的Super Cruise系统都符合2级自动驾驶标准。
第3级,受条件制约的自动驾驶。汽车具有“环境检测”能力,可以根据信息自己作出决定,如加速超过缓慢行驶的车辆。但是,这一级别的汽车仍然需要人类来操控。驾驶员必须保持警觉,并且要能够在系统无法执行任务时对汽车进行操控。
第4级,高度自动驾驶。汽车能够以无人驾驶模式行驶,但由于立法和基础设施欠缺,这一级别的汽车只能在限定区域内行驶(通常是在城市路况下行驶,平均行驶速度最高可以达到大约48 km/h),这被称为地理围栏(geofencing)。因此,现有的大多数4级自动驾驶汽车面向的是共享出行领域。
第5级,完全自动驾驶。驾驶汽车不需要人为关注,从而免除了“动态驾驶任务”。5级自动驾驶汽车甚至没有方向盘或加速/制动踏板。它们不受地理围栏的限制,能够去任何地方并完成任何有经验的人类驾驶员可以完成的操控。
自动驾驶要求汽车需要有感知环境的传感器,如雷达、激光雷达、可见光照相机、红外照相机、立体视觉、声音传感等,以及GPS(Global Positioning System,全球定位系统)、汽车域网等内/外部设备。自动驾驶的汽车需要根据这些设备知道自己在哪儿,周围环境中都有什么,如何从一个地点行驶到另一个地点,乘客和驾驶员在干什么,以及需要执行哪些操作来控制驾驶。
自动驾驶是人工智能技术的集大成者,它涉及环境感知和行为决策。
环境感知包括对外部环境(道路、行人、周围车辆、障碍物等立体环境)的感知和对内部环境(包括驾驶员或乘客的状态)的感知。对外环境感知利用了大量的与计算机视觉相关的人工智能技术,包括但不限于目标识别、Re-ID、3D模型重建、高精度定位等。对内环境感知在图像方面用到了人脸识别和表情识别,在自然语言处理方面用到了语音识别和合成、自然语言理解等。
行为决策涉及车辆的最优导航路径规划、事故避免策略制定、多路传感信号综合处理判断等人工智能预测和决策任务。