1.2 人工智能
1.2.1 从感知到创造
人工智能(Artificial Intelligence,AI)在智能水平的划分上,可主要归纳为两大类别:弱人工智能(Narrow AI)与强人工智能(General AI)。弱人工智能聚焦于特定任务或狭窄领域,展示出高度专业化的智能形态。这类系统专为应对明确界定的问题设计,例如语音识别软件及图像解析系统,它们在各自的专业领域中能力出众,但在处理非指定范围的任务时,则显得功能有限。反之,强人工智能则代表了一种普适性智能,旨在达到与人类相仿的认知能力。它不仅能够跨领域作业,还拥有学习新知、理解复杂情境及灵活适应变化的能力,涵盖了语言理解、逻辑推理、问题求解等诸多维度,力求复制人类心智的全貌。强人工智能的发展蓝图辽阔,寄托了对智能技术未来愿景的无限遐想,但同时也伴随着更为艰巨的挑战与深层次的复杂性,因为它需破除单一功能的局限,迈向真正意义上的通用智能境界。
研究者在此基础上追求人工智能实现的路径。三种不同的智能层次如图1-3所示。
图1-3
(1)计算智能:是人工智能的基础支柱之一,是指计算机系统利用高级算法、精密的数学模型及大数据处理技术,执行复杂的运算任务和数据分析的能力。它不仅涵盖快速准确的数值计算,还包括模式识别、数据挖掘、优化决策等高级应用,是支撑现代科技发展和众多智能服务背后的强大引擎。通过不断优化的算法设计,计算智能正不断突破处理速度与效率的极限,为解决大规模、高复杂度问题提供可能。
(2)感知智能:进一步扩展了机器与现实世界的接口,使计算机能够通过传感器、摄像头、麦克风等设备捕捉并解释外部环境的各类信息。这一领域主要包括计算机视觉—让机器“看见”并理解图像和视频内容,以及语音识别技术—使机器能够准确辨识、转录并理解人类语言。此外,还有触觉、嗅觉等其他感知方式的模拟研究,共同构建起机器全面感知外界的综合体系,为实现更加自然和高效的交互体验奠定基础。
(3)认知智能:这一领域致力于模仿和实现人类的高级思维过程,使计算机不仅能处理数据,还能“理解”信息、学习新知识、进行逻辑推理、解决问题,乃至创新和决策。它涵盖了机器学习、自然语言处理、知识图谱构建等多个子领域,力图通过深度学习等技术,让计算机掌握语境理解、情感识别、抽象思维等能力,逐步缩小与人类智能的差距。认知智能的突破,将极大推动自动化决策支持系统、智能顾问、个性化教育等领域的进步,开启人工智能服务社会生活各个层面的新篇章。
1.计算智能
计算智能,这一概念涵盖了计算机系统高效的数据处理与庞大的存储能力,是现代科技发展的关键要素。它不仅是关于速度和容量的追求,更是对信息时代基础设施智慧化水平的衡量。
(1)GPU(Graphics Processing Unit,图形处理单元):GPU作为高性能计算的杰出代表,专为密集型图形与图像数据处理而设计,其强大的并行处理能力、丰富的硬件加速特性和灵活的着色器编程功能,使其成为当代图形处理领域不可或缺的核心组件。类似地,TPU(Tensor Processing Unit,张量处理单元)和ASIC(Application Specific Integrated Circuit,应用特定集成电路)也是为了特定领域内的极致性能而定制开发的高效能计算解决方案,它们在机器学习、加密货币挖掘等领域展现出非凡效能。
(2)分布式计算:分布式计算技术是另一项革命性进展,它通过将复杂的计算任务拆分为若干较小的子任务,并将这些子任务分发至多台计算机上并行执行,有效提升了计算资源的使用效率和处理速度,是满足大规模数据处理和复杂计算需求的强有力手段。
(3)SSD(Solid State Disk或Solid State Drive,固态硬盘):SSD作为存储技术的重大革新,基于高速闪存介质,与传统的机械硬盘(Hard Disk Drive,HDD)相比,显著提高了数据读/写速度,缩短了访问延迟,并增强了耐用性和可靠性,为现代计算系统提供了更为流畅的数据存取体验。
计算智能是当今世界研究的重点之一。尽管计算智能,如NVIDIA(英伟达)公司不断强化的GPU算力和Intel持续优化的CPU性能,确实是科技进步的显著标志,但我们应认识到,单纯的计算速度与存储能力的提升并不直接等同于人工智能的实现。事实上,人类长期以来追求的不仅是计算机运算速度的极限突破。
自古至今,计算机在计算速度上早已超越人类,而今我们所探索的是如何在保证高效、低成本的同时,赋予计算机理解、学习、决策等更接近人类智能的特性,进而推动人工智能迈向更高阶的发展阶段。
2.感知智能
感知智能,这一概念核心在于赋予计算机系统对外界环境的敏锐识别与理解能力,是人工智能技术中至关重要的一环。
(1)计算机视觉:它作为感知智能的前沿阵地,旨在模仿并实现人类视觉认知机制,使得机器能够处理、解析数字图像与视频资料,进而深入理解并诠释视觉信息。通过复杂的算法与深度学习模型,计算机视觉技术不仅能够识别物体、场景,还能分析动作、表情,乃至推断情境意义,有效地模拟了生物视觉系统的复杂功能。
(2)语音识别技术:语音识别则是感知智能的另一大支柱,它赋予了计算机理解与响应人类语音指令的能力,为实现自然语言处理与语音交互系统奠定了坚实基础。通过捕捉、转换及解析音频信号,该技术打破了传统人机交互的壁垒,使无接触式通信成为可能,极大地丰富了人机互动的形式与深度。
(3)感知技术:感知技术的范畴更广,涵盖了力反馈、触摸感应、形变监测、温度感知及纹理识别等多种传感方式,这些技术协同工作,使得机器能够模拟触觉、感知物理形态变化、监测环境温湿度变化及辨别材质特性,极大地增强了其对物理世界的理解与适应能力。
(4)其他传感器技术:此外,激光雷达(LiDAR)、红外传感器、摄像头、麦克风、气味探测器等其他高精度传感器技术的集成应用,进一步拓宽了机器感知的边界,使其能够精确测量距离、探测障碍物、识别生物体征、捕捉声音信号乃至分析空气质量,为实现全方位、多维度的环境感知与智能响应提供了强有力的硬件支持。
总之,感知智能在人工智能领域的核心地位不容小觑,它不仅是连接虚拟世界与现实世界的桥梁,更是实现智能体自主感知、理解并适应外部环境,进而有效互动与决策的关键。近年来,随着这些技术的快速发展与普及应用,我们的社会生活发生了翻天覆地的变化,技术的每次飞跃都在为人类带来前所未有的便捷与生活质量的显著提升,预示着一个更加智能、互联的未来正逐步成为现实。
3.认知智能
认知智能,这一高级别的智能形式旨在赋予计算机系统类似人类的思维与理解能力,使之能深度解析信息并提出富有洞察力的见解,模拟人类在认识与阐释世界时所展现的认知过程。如图1-4所示,这一过程中的若干关键技术节点构筑了认知智能的基石,其中包括但不限于控制论原理的应用、基于规则的决策引擎设计、自然语言处理技术的革新、计算机视觉领域的突破、深度学习架构的兴起、强化学习策略的实施,以及生成对抗网络的创新,这些技术的融合和迭代共同推进了智能系统向更高层次的发展与跃进。
(1)ChatGPT:一种基于深度学习技术的对话生成模型,其影响力日益显著,广泛渗透至对话系统、聊天机器人及智能客服等行业应用中,有效支撑了自动问答、日常对话交流、个性化建议提供乃至问题解决方案的即时生成,极大地扩展了人机交互的深度与广度。
(2)Stable Diffusion:一种用于生成高质量图像的技术,标志着图像生成领域的一大飞跃,专注于创造高品质视觉内容,应用于图像生成、编辑与重建等多个维度,为用户提供了前所未有的图像创作解决方案,展现了人工智能在创造性内容生产方面的巨大潜力。
图1-4
自2022年下半年以来,以Stable Diffusion和ChatGPT为代表的新兴技术,不仅引领了人工智能领域的全新风潮,更标志着认知智能迈向了一个新纪元—创造世界的合成数据与创造性结果生成。这一转变,如同为机器安装上了类似于人类大脑的引擎,极大地增强了其创造性和创新能力。
计算智能作为人工智能领域的基础,支撑着这一系列技术革命;而感知智能,作为连接物理世界与数字理解的桥梁,通过分析数据并提供决策依据,扮演着“感官”角色,其背后的驱动力正是控制论、规则基础的决策系统、自然语言处理、计算机视觉等关键技术,它们共同构成了人工智能的“视觉”与“听觉”,使机器得以观察、理解并响应周遭环境。
1.2.2 通用人工智能
1.触类旁通
以往的人工智能系统在设计上并未展现出普遍适用的智能特质,即未能达到通用人工智能(Artificial General Intelligence,AGI)的标准,这是由于这些系统构建的模型和算法通常被优化来执行高度专门化的单一任务。例如,专为人脸识别设计的系统,尽管在精准辨认个体方面表现出色,但其功能却严格限定于人脸的识别范畴,无法超越此特定领域。同样,针对缺陷检测定制的AI模型,虽然能高效识别某一预设类型的瑕疵,但在需检测不同种类缺陷的新场景,除非经历模型的替换或重新训练,否则将难以适应并有效工作。
AlphaGo的案例尤为显著,这款AI系统凭借其在围棋对弈上的卓越表现赢得了全球瞩目,但它的智能边界清晰划定于围棋规则之内。这意味着,尽管AlphaGo在围棋领域内达到了超凡的竞技水平,但在面对五子棋等结构迥异的棋类挑战时,却无法直接迁移其战略思维或游戏技能,暴露出传统AI系统在处理非专项任务时的局限性。这系列实例共同凸显了早期AI技术与理想中AGI愿景之间的差距,后者追求的是跨领域、自适应和泛化能力强的智能形态。
如图1-5所示,随着技术的不断发展,像ChatGPT这样的模型已经具备了触类旁通的能力,即可以将在一个任务领域学到的知识应用于其他领域。这种能力被学术界描述为“涌现(Emergent)”,意味着模型可以在不同领域表现出类似的智能水平。当前,一个备受关注的研究热点是多模态大模型,旨在开发一个可以处理多种媒体类型问题的统一模型。如果这一努力取得成功,则几乎所有类型的数据都可以通过这个模型进行训练,实现从一个数据类型到另一个数据类型的生成。例如,可以从剧本直接生成电影,从需求文档直接生成可执行的应用程序,或者从口头描述直接生成三维人物。基于这样的逻辑,我们可以大胆地假设,凡是数据,都可以交给这个模型训练,让它学会如何从一个数据类型生成另一个数据类型。
图1-5
尽管如此,要实现真正的AGI仍然面临着许多未知因素和挑战。当前的技术进展只是打开了探索之门,我们尚不清楚门后有什么,也不知道我们是否已经走上了正确的道路。然而,尽管存在诸多不确定性,我们依然可以思考AGI的出现将如何改变产业和个人生活。某些变化已在悄然发生,因此,我们需要深入思考AGI可能带来的潜在影响,并做好准备,迎接未来的挑战和机遇。
2.意义
假设AGI已经实现,这将引发一场信息技术界的革命,其影响不仅体现在提高生产效率、降低生产成本等方面,更在于对软件系统本身的深远影响。从这个角度来看,我们可以通过朝着实现AGI的方向推导出当前所需的技术发展方向。
一项技术是否具有革命性,通常可以通过以下标志来衡量:是否要求几乎每个软件系统都进行改造甚至重构。在过去,已经有一些技术满足了这一标准,比如图形界面、Web 2.0和移动互联网。AGI也符合这个标准,因为它将重新定义软件系统的“接口”。无论是用户界面还是软件系统之间的接口,AGI都将对其进行重新定义。
当前,人们需要通过理解计算机的能力、掌握各种软件的操作方法,并将自己的意图拆解为一系列操作软件的步骤才能获得所需结果。然而,AGI的出现改变了这一情况。人类将能够通过“说话”的方式与计算机进行交互,当交流语言不方便时,可以转而使用打字。如果打字过于烦琐,只需“说”出所需结果,计算机即可呈现。用户可以立即“说”出修改意见,系统会立即做出响应。在这种情况下,用户界面的体验将得到极大的提升,鼠标点击和屏幕触摸的频率将会大幅降低。这一进步,提升了人类的工作效率,使人类的生活更加便利。
人类的定义通常包括两个方面:会使用语言和会使用工具。AGI在解决了语言问题之后,下一步就是解决工具的选择和使用问题。AGI的出现让人类能够更加便捷地使用计算机和软件系统,进一步推动了信息技术的发展。
1.2.3 发展方向
如表1-1所示,当前大模型的探索和发展正聚焦于四大热门方向,引领着AI领域的新一轮创新浪潮。
(1)预训练:这一技术通过在海量文本数据上预先训练模型,使得模型能够学习到广泛的语言结构和语境知识,为后续的特定任务应用打下坚实的基础。预训练模型如BERT(Bidirectional Encoder Representations from Transformers,来自Transformers库的双向编码器表示)模型和GPT(Generative Pre-Trained,生成式预训练)模型,已成为NLP(Natural Language Processing,自然语言处理)领域的基石,极大地拓宽了语言理解与生成能力的边界。
(2)模型微调:作为预训练模型实用化的重要步骤,它针对特定任务对预训练模型进行调整优化。通过在少量任务相关数据上进行额外训练,模型能够“学会”执行情感分析、问答系统或文本生成等具体功能,展现了高度的灵活性与效能,使得大模型能够更好地适应实际应用场景的需求。
(3)AI Agent:其概念是进一步拓展语言模型的功能,使之不仅能处理文本,还能在多模态环境中互动、决策和学习。这些智能体通过整合语言理解、环境感知及决策制定能力,能够在复杂场景下辅助人类工作,参与社交对话,乃至在虚拟世界中执行任务,代表了向更全面人工智能形态迈进的关键一步。
(4)提示工程:近年来成为研究和应用的热点,它强调通过精心设计的提示(Prompt,也称提示词)来引导模型输出,以激发模型潜在的能力,甚至不需要额外的微调就能完成新任务。这包括但不限于创建具有启发性的指令、构建Prompt模板及使用Prompt进行知识注入等策略。提示工程(Prompt Engineering,也称Prompt工程)不仅降低了定制化AI解决方案的门槛,而且也为探索模型内在逻辑和泛化能力提供了新的视角。
预训练、模型微调、AI Agent和提示工程共同构成了当前大模型发展的四大热门方向,它们相互交织,不断推进人工智能技术的前沿,塑造着更加智能、高效且人性化的数字未来。
表1-1 当前大模型的四大热门方向
1.2.4 本书焦点
在AI的新纪元时代,大模型将被塑造为不可或缺的基础设施,正如一日三餐、水和电在我们日常生活中的地位,成为支撑各种应用和创新的根基。然而,预训练大模型的任务是艰巨且复杂的,其建设和维护通常由技术力量雄厚、资金充沛的少数企业来承担。因此,本书并不聚焦于如何研发、训练自己的大模型,而是专注于以下几点。
1.焦点一:微调、本地化与提示工程
对大多数人而言,我们并非这些资源的创造者,而是使用者。因此,真正的挑战在于如何最大限度地发挥大模型的作用,学会有效地使用这些大模型才是关键。
对于本书而言,第一步:充分利用大模型,即掌握模型的微调(Fine Tuning);第二步:深入驾驭大模型,即掌握提示工程。因此,本书优先对这两个方面进行阐述。
大模型的高昂训练成本无疑是微调的一个推动因素。由于大模型的参数众多,全新的训练不仅会消耗大量的计算资源,而且还需要承担相应的经济成本。考虑到性价比,让每家公司都从头开始训练一个大模型显然不是一个经济实用的选择。那么,选择已经预训练好的模型,进行目标任务的微调则是更为理智、高效且节约成本的策略。
提示工程为大模型的使用提供了一种效果明显且简单上手的方式,一个好的Prompt可以帮助我们挖掘到大模型的潜力边界,充分发挥大模型的能力,但很多人并不清楚Prompt的编写技巧。若细心阅读本书,则能体验到Prompt的编写技巧。
本地化:我们不能忽视数据的隐私和安全性问题。特别是对于敏感数据,很多企业不希望或不能将其传输给第三方大模型服务。在这种情况下,拥有自己的模型并进行微调不仅能确保数据的安全性,还能针对特定需求优化模型性能。
2.焦点二:垂直领域与Agent应用开发
垂直领域与Agent应用开发也是目前的热门方向,但提示工程和微调并不能解决所有的问题。
纵使提示工程为大模型的使用提供了一种简单上手的方式,但它的缺点也显而易见。具体来说:大模型在设计上对输入序列长度有明确的限制,而提示工程往往会产生较长的Prompt。这样的设计直接引发了两个问题:
(1)推理成本会随着Prompt长度的增加而急剧上升,尤其是当这种推理成本与Prompt长度的平方成正相关时。
(2)过长的Prompt容易被模型截断,从而严重影响输出的质量和准确性。
垂直领域中的企业往往有大量的自有数据,提示工程由于其局限性,效果达不到预期的效果。而基于自有数据的微调,也有其缺点—企业的自有数据往往是不断更新的,而微调的成本虽然比预训练模型要低,但微调的时间成本和算力成本不容忽视,微调的速度不可能与企业数据的更新频率保持一致,因而存在信息的滞后性。这是本书能解决的一个重要技术问题。