原文链接:https://mp.weixin.qq.com/s/4Mcs9aXuZthgIV5W2imOag
当你能对别人讲清楚AI时,才是你真正理解了AI。
这篇讲清楚关于人工智能你需要知道的一切。
人工智能(AI)是一个不断发展的概念,它指代的是机器执行那些曾需人类智能方能完成的任务的能力。自20世纪50年代起,人工智能便已初现端倪,其定义随着数十年的研究和技术进步而不断演进。
如今,人工智能广泛应用于自动驾驶汽车、笔记本电脑、聊天机器人(如ChatGPT)以及图像生成器等众多领域。那么,它究竟是什么?又是如何运作的呢?
“人工智能”这一术语源自一个观点:若智能是生物有机体所固有的,那么在其他领域中的存在则表明它是人造的。计算机科学家艾伦·图灵是首批探索机器能否像人一样利用信息和逻辑进行决策的人之一。他提出了图灵测试,通过比较机器与人类的能力,来检验人们是否能区分机器的智能是否为人造(例如,令人信服的深度伪造就是人工智能通过图灵测试的一个实例)。
基本计算系统之所以能够运行,得益于程序员对其进行的特定任务编码。然而,人工智能的实现则依赖于计算机能够存储信息(包括过去的命令),这与人类大脑通过储存技能和记忆来学习的方式类似。这种能力使人工智能系统能够适应新环境、学习新技能,从而完成那些它们并未明确编程要执行的任务。
一些专家将智能定义为适应、解决问题、规划、随机应变以及学习新事物的能力。尽管这些系统尚不能完全取代人类智能或社交互动,但当今的人工智能系统已展现出人类智能的某些特征,包括学习、解决问题、模式识别、感知,甚至有限的创造力和社会意识。
当然,人类智能的一个重要组成部分是人工智能尚未能复制的——即语境理解。例如,谷歌的人工智能系统缺乏现实世界的逻辑,难以识别人类的微妙之处,如讽刺和幽默,这从它给出的诸如“在披萨酱中加入胶水以使奶酪粘住”或“使用汽油使意大利面变辣”的建议中可见一斑。虽然这些建议的风险较低,但在错误的情况下,缺乏语义理解的人工智能系统可能会产生严重的后果。
人工智能具有广泛的潜在应用,这些应用已深深渗透到我们的日常生活中。在消费者领域,谷歌搜索的新版本、可穿戴设备,甚至是吸尘器,都展现了人工智能的无限可能。壁炉架上那些内置Alexa或谷歌语音助手的智能扬声器,便是人工智能应用的生动例证。
ChatGPT、微软的Copilot和Claude等热门的AI聊天机器人,不仅能解答问题或执行任务,如解释概念、撰写电子邮件或项目大纲,甚至还能创作创意故事。然而,由于AI模型无法准确区分事实和虚构,这些聊天机器人有时会产生误导性的信息或编造故事。因此,在使用时,尤其是在引用质量不确定的情况下,务必通过独立研究来验证它们的陈述。
在消费产品中,人工智能的一个核心功能是提供个性化服务,无论是精准投放的广告还是基于生物识别的安全系统。例如,当您使用Face ID解锁手机时,手机之所以能区分您的脸和别人的脸,是因为它参考了数十亿其他人的面部数据,并匹配了特定的数据点来识别您的面部特征。
从更宏观的角度看,营销和内容团队可以利用人工智能简化生产流程,而开发人员则能借助它编写和执行代码。此外,人工智能还极大地提高了医学研究的速度和效率。
机器学习(ML)是指通过大量数据来训练算法以识别模式,进而辅助预测和决策制定的过程。这种模式的自动搜索使系统能够执行那些未明确编程的任务,这也是人工智能(AI)与其他计算机科学领域的核心区别。尽管许多人将AI与这种能力相联系,但机器学习实际上是AI的一个子集。
当数据被妥善结构化或组织时,系统能够更轻松地检测异常——比如,当信用卡交易来自不常见的地点时。
机器学习的应用实例不胜枚举,其中包括搜索引擎、图像和语音识别以及欺诈检测。以Face ID为例,当用户将照片上传到Facebook时,社交网络的图像识别技术会分析图像、识别出人脸,并提出建议来标记识别出的朋友。随着时间的推移和更多图像数据的积累,该系统将不断完善这项技能,并变得更加精确。
机器学习通常分为两大类:监督学习和无监督学习。
监督学习
这种常见的技术用于训练AI系统,它依赖于注释数据或人类已标记和分类的数据。机器学习系统随后会输入这些数据来学习其中的模式。
假设您希望训练一个机器学习模型来识别和区分圆形与正方形的图像。为此,您需要构建一个数据集,其中包含大量圆形图像(如行星、车轮等圆形物体的照片)和正方形图像(如桌子、白板等)。接下来,您需要为每个图像添加标签,以指明其形状。
之后,算法将分析这组带标签的图像,学习如何区分不同的形状及其特征:例如,圆形没有角,而正方形则有四条等长的边。一旦训练完成,系统就能够识别出一张新图像中的形状。
无监督学习
相比之下,无监督学习则允许算法自行寻找未标记数据中的模式,通过识别数据间的相似性来进行分类。
这些算法并不预先设定特定的数据选择标准;它们仅仅基于数据之间的相似性进行分组——例如,根据客户的购物行为对他们进行细分,从而开展更具个性化的营销活动。是不是像淘宝在给你推荐商品?
强化学习
在强化学习中,系统通过输入数据进行训练,旨在最大化奖励,并经过反复试验和调整,直至达到最佳性能。
以训练一个系统玩电子游戏为例,当得分较高时,系统会获得正奖励;而得分较低时,则会受到负奖励的惩罚。系统通过不断分析游戏并调整行动策略,仅从收到的奖励中学习和改进。最终,它能够独立地玩游戏,并在无人干预的情况下取得高分。
强化学习不仅在游戏领域有所应用,还广泛用于科学研究,特别是在教导自主机器人在现实环境中以最优方式行动方面。例如,机器人学习如何在未获取数据的新环境中导航,比如绕过意外的障碍物,这是人工智能领域中更高级机器学习技术的一个典型应用。
人工智能可以分为三个子类别:狭义人工智能、通用人工智能和超级人工智能。
什么是狭义人工智能?
狭义人工智能(ANI)指的是无需明确设计即可构建或训练,以执行特定任务或解决特定问题的智能系统。这种类型的人工智能对于诸如 Siri、Alexa 和 Google Assistant 等语音助手而言至关重要。
ANI 有时被称为弱人工智能,因为它不具备全面的通用智能能力。但这并不削弱其实际效能。除了语音助手,图像识别系统、响应简单客户服务请求的自动化技术以及标记在线不当内容的工具,都是 ANI 的实际应用例子。
ChatGPT 同样是 ANI 的一个典型应用,它经过编程以执行一项具体任务:基于提供的提示生成文本响应。
什么是通用人工智能?
通用人工智能(AGI)或强人工智能仍然是一个理论上的概念,因为它设想机器能够理解和基于积累的经验自主执行多种截然不同的任务。这种智能类型更接近人类智力水平,因为AGI系统能够像人类一样进行推理和思考。
与人类相似,AGI能够理解任何智力任务,进行抽象思考,从经验中学习,并利用这些知识来解决新问题。我们谈论的实际上是一个具备常识的系统或机器,这是目前任何现有的人工智能技术都尚未实现的。
尽管开发具有意识的系统可能仍是一个遥远的目标,但它却是人工智能研究的终极目标。OpenAI暗示即将推出的GPT-5将使我们距离AGI更近一步。
什么是超级人工智能?
超级人工智能(ASI)是一种超越人类智能,并在所有功能上均超越人类的机器智能。这样的系统不仅可能对人类社会产生深远影响,甚至可能带来毁灭性后果。尽管这一概念听起来像是科幻小说中的情节,但确实有其科学依据。
一个能够自我学习并持续自我完善的智能系统目前仍是一个理论假设。然而,如果这种系统能够以道德和负责任的方式得到应用,那么它有望在医学、技术等多个领域带来前所未有的进步和成就。
人工智能领域的显著进步包括但不限于GPT 3.5、GPT-4以及栩栩如生的人工智能头像和深度伪造技术。然而,该领域的革命性成就远不止这些。
以下是一些最引人注目的进展:
ChatGPT(以及GPT系列)
ChatGPT是一款能够生成和翻译自然语言、回答问题的AI聊天机器人。在ChatGPT之前,OpenAI通过GPT 1、2和3的发布,已经引发了人工智能领域的巨大变革。GPT,即生成式预训练Transformer,GPT-3在2020年推出时,成为了当时最大的语言模型,拥有1750亿个参数。随后,GPT-3.5为ChatGPT的免费版本提供了支持。而最大的版本GPT-4则拥有一万亿个参数,可以通过ChatGPT、ChatGPT Plus和Microsoft Copilot的免费版本访问。
自动驾驶汽车
自动驾驶汽车的安全性是潜在用户的主要关注点,但随着人工智能的突破,这项技术正在不断进步。这些车辆利用机器学习算法,结合来自传感器和摄像头的数据,来感知周围环境并确定最佳行动方案。特斯拉电动汽车的自动驾驶功能广为人知,但谷歌母公司Alphabet旗下的Waymo也在加利福尼亚州旧金山和亚利桑那州菲尼克斯提供自动驾驶服务,如无人驾驶出租车或Uber Eats外卖配送。Cruise是另一项机器人出租车服务,奥迪、通用和福特等汽车公司也在积极研发自动驾驶汽车技术。
机器人技术
波士顿动力公司在人工智能和机器人领域的成就尤为突出。尽管我们距离创造终结者级别的人工智能技术还有很长的路要走,但波士顿动力公司的液压人形机器人能够利用人工智能导航并应对不同地形,已经令人印象深刻。
DeepMind
谷歌子公司DeepMind是AI领域的先驱,专注于通用人工智能(AGI)的研究。尽管AGI尚未实现,但DeepMind在2016年因创建击败世界最佳围棋选手的AI系统AlphaGo而备受瞩目。此后,DeepMind又推出了AlphaFold,这是一个能够预测蛋白质复杂3D形状的系统。该公司还开发了可以像顶级医生一样有效诊断眼疾的程序。
人工智能的一个重要应用领域体现在大型语言模型(LLM)上。这些模型运用无监督机器学习技术,通过海量文本数据训练,来深入理解人类语言的运作机制。为了降低成本,科技公司通常会从互联网上免费抓取这些文本数据,其中包括文章、书籍、网站和论坛内容等。
在训练过程中,LLM 会处理数十亿个单词和短语,以学习它们之间的模式和关系,从而使模型能够基于用户提示生成类似人类的回答。
然而,需要明确的是,这些模型主要是在复制常见的语法模式和词汇配对,尽管这一过程在复杂的层面上进行——但它们的思维方式与人类截然不同,因为它们并不具备理解事实、逻辑或常识的能力。
OpenAI 近期发布的GPT-4在Chatbot Arena排行榜上表现出色。该公司的GPT-4 Turbo被认为是目前最先进的LLM之一,而GPT-4作为最大的LLM,据称拥有1.78万亿个参数。ChatGPT可以基于GPT-3.5和GPT-4运行。此外,谷歌开发的同名LLM——Gemini,尽管其参数数量尚未公开,但据估计可能高达175万亿个。
机器学习的成功在很大程度上依赖于神经网络。这些数学模型的结构和功能受到人类大脑中神经元相互连接和信号传递方式的启发。
想象一下,一群机器人协同工作,共同解决一个复杂的难题。每个机器人都拥有特定的能力,如识别拼图碎片中的不同形状或颜色。神经网络就如同这样的一群机器人,它们将各自的能力结合起来,共同攻克难题。
神经网络具备调整内部参数以改变输出的能力。在训练过程中,神经网络会接触到大量的数据,学习如何在给定特定输入时产生预期的输出。
这些网络由多个相互连接的算法层组成,层与层之间传递数据。通过调整数据在层间传递时的权重,我们可以训练神经网络执行特定的任务。在训练过程中,这些权重会不断更新,直至神经网络的输出与所需结果高度吻合。
一旦神经网络达到这一状态,它便“学会”了如何执行特定任务。这些任务的范围广泛,从识别图像中的水果类型,到根据传感器数据预测电梯的故障时间等。
深度学习,作为机器学习的重要分支,专注于训练具备三层或更多层次的人工神经网络,以执行多样化的任务。这些神经网络被扩展为深邃庞大的网络结构,通过大量数据进行精细训练。
深度学习模型通常包含至少三层,有时甚至高达数百层。在训练过程中,它可以灵活采用监督学习、无监督学习或两者的结合。
由于其卓越的能力,深度学习技术被广泛应用于自然语言处理(NLP)、语音识别和图像识别等领域,用于捕捉数据中的复杂模式,进而推动人工智能的进一步发展。
对话式人工智能是指经过编程,能够与用户进行自然对话的系统。该系统经过训练后,能够聆听用户的输入(对话内容),并据此作出相应的响应(输出)。这种智能对话的实现,主要依赖于自然语言处理(NLP)技术,以确保系统能够自然地理解和回应用户的语言。
对话式人工智能的实例广泛,包括像Gemini这样的聊天机器人、搭载语音助手的智能扬声器如Amazon Alexa,以及iPhone的虚拟助手如Siri等。
消费者和企业都能利用丰富的人工智能服务,不仅加速任务处理,还为日常生活和工作带来便利——您家中可能已拥有一些人工智能设备。
以下是公众可使用的一些常见人工智能示例,涵盖免费和收费服务:
语音助手:
如Echo设备上的Amazon Alexa、iPhone上的Apple Siri以及Pixel设备上的Google Assistant,它们运用自然语言处理技术来理解和响应您的提问或指令。
聊天机器人:
ChatGPT、Copilot和Perplexity等人工智能聊天机器人作为虚拟助手,能够与人互动,进行类人对话,甚至在某些情境下展现出同情和关心。
语言翻译:
Google Translate、Microsoft Translator、Amazon Translate和ChatGPT等服务通过机器学习技术,为用户提供文本翻译服务。
生产力工具:
Microsoft Copilot for Microsoft 365是一个显著例子,其中LLM作为AI生产力工具嵌入Word、PowerPoint、Outlook、Excel、Teams等应用中,能够自动执行任务。例如,只需输入“请通过电子邮件向团队通报项目的最新状态”,Copilot便会自动收集相关信息,生成符合您需求的邮件文本。
图像和视频识别:
不同程序利用人工智能识别图像和视频中的内容,如面部、文本和对象。Clarifai使用机器学习技术来组织非结构化数据,而亚马逊的Rekognition AWS服务则允许用户上传图像以获取相关信息。
软件开发:
ChatGPT等AI工具已帮助开发人员编写和调试代码一年多时间。此外,OpenAI Codex的AI配对程序员GitHub Copilot也是一例,它通过即时自动完成注释和代码,帮助程序员更快、更轻松地编写代码。
企业AI工具:
许多公司如OpenAI和Amazon正致力于为企业创建AI工具,如OpenAI的GPT-4 API和Amazon Bedrock(一套面向开发人员的基于云的AI工具)。
随着生成式人工智能的崛起,多家公司纷纷在这一领域展开激烈竞争,其中既有老牌科技巨头,也不乏新兴初创企业。尽管各家公司的发展势头迅猛,难以确立固定的行业领导者,但以下是一些主要参与者。
OpenAI:
OpenAI 在免费提供其强大的生成式AI工具(如ChatGPT和AI图像生成器Dall-E 3)后,对AI领域产生了巨大影响。
Anthropic:
Anthropic打造了Claude,这一强大的AI系统被视为OpenAI的主要竞争对手。该公司专注于人工智能研究中的安全与道德问题。
Alphabet(谷歌母公司):
Alphabet通过旗下DeepMind、Waymo和谷歌等公司涉足不同领域的人工智能系统。谷歌在AI聊天机器人领域起步虽艰难,但其工具Google Bard经过两次技术迭代(从LaMDA到PaLM 2,再到Gemini),目前表现已大为改观。同时,DeepMind继续追求AGI(通用人工智能),为Document AI开发了机器学习模型,优化了YouTube观看体验,并推出了AlphaFold等创新产品。尽管Alphabet在人工智能方面的努力可能不常出现在新闻头条,但其深度学习和AI领域的进展无疑将对人类未来产生深远影响。
微软:
除了推出Microsoft Copilot外,微软还在Azure上为开发人员提供了一系列AI工具,包括机器学习、数据分析、对话式AI等平台,以及计算机视觉、语音和语言方面的定制API。此外,微软对OpenAI进行了巨额投资,并在Copilot(原名Bing chat)和Dall-E 3的高级版本中运用了GPT-4技术,支持Microsoft Designer的图像生成功能。
苹果:
苹果最近也加入了这场竞赛,推出了AI升级的iPad系列,并有望在WWDC上发布更多新产品。
其他公司:
在人工智能领域取得显著进展的公司还包括百度、阿里巴巴、Cruise、联想、特斯拉等。
人工智能的应用速度和规模将深刻影响我们的工作、购物、媒体消费方式,以及隐私、健康等多个方面。与历史上的许多变革一样,人工智能带来的好处、挑战和潜在风险都是错综复杂的。
技术的不断进步正重塑着工作的本质。人工智能通过自动化某些任务,正在改变各行各业的日常工作流程,创造新的职位,同时使一些传统角色逐渐过时。例如,在创意领域,生成式人工智能已经大幅降低了营销和视频内容的制作成本、时间和人力需求。
在医疗保健系统和医学研究中,人工智能的作用日益凸显。它有助于提高医疗服务的可扩展性和可及性,使得医生和放射科医生能够以更少的资源诊断癌症,发现与疾病相关的基因序列,并识别出能生产更有效药物的分子,从而可能挽救无数生命。
然而,这项技术也带来了新的挑战,即如何保护我们数据的隐私,甚至包括我们的想法。人工智能使得面部识别和监控变得普遍,这引发了许多专家对彻底禁止此类技术的呼吁。在加剧隐私和安全担忧的同时,人工智能也推动了网络安全软件领域的显著进步。
随着模型(及其背后的公司)实力的增强,用户要求提高模型创建方式和成本的透明度。公司从互联网上抓取图像和文本来训练模型的做法,已经引发了一场关于创意材料许可的激烈法律讨论,这场讨论仍在进行中。
神经网络具有在未经许可的情况下逼真地复制某人的声音或肖像的能力,这使得深度伪造和错误信息成为当前人们关注的焦点,特别是在即将到来的选举中。
由于人工智能使得大规模自动化变得轻而易举,研究人员和技术人员对其在武器制造和战争中的潜在应用表示担忧。
人工智能系统在不久的将来取代大量现代劳动力的可能性是可信的。
尽管人工智能不会完全取代所有工作,但可以确定的是,它将深刻改变工作的性质。关键在于自动化将如何迅速且显著地重塑职场环境。
然而,人工智能无法独立运作。虽然许多涉及常规、重复性数据的工作可能会实现自动化,但其他领域的工作者可以利用生成式人工智能等工具来提高生产力和效率。
关于人工智能系统将以多快的速度超越人类的能力,专家们的看法存在广泛差异。