Michael Chen | 内容策略师 | 2023 年 12 月 6 日
在流行文化中,AI 有时会被说的很坏。电影将 AI 描绘成通往机器人启示录的第一步,新闻也充斥着各种 AI 将会如何夺走我们所有工作的故事。事实上,AI 已经存在了一段时间,而且这些糟糕的情况都不太可能会发生。
从根本上说,AI 就是使用数据进行预测。这种功能除了可以支持流媒体服务的“您可能也喜欢”推荐服务,支持聊天机器人理解用自然语言提出的查询并预测正确的答案,还可以支持应用查看照片并使用面部识别来认出照片中的人。然而,如果要实现这些预测,我们需要有效的 AI 模型训练,而依赖于 AI 的新应用也可能会需要稍微不同的学习方法。
AI 模型的核心是一组选定的算法和用于训练这些算法的数据,旨在做出更准确的预测。在某些情况下,一个简单的模型只使用一个算法,因此这两个术语可能会存在重叠,但模型本身就是经过训练后的输出。
从数学的角度来看,算法可以被视为具有未定义系数的方程。当选定的算法开始消化数据集,以确定哪种系数值更加适合时,该模型会融为一体,为预测创建模型。“AI 模型训练”这个术语指的是一个过程:提供算法数据,检查结果并调整模型输出,以提高准确性和有效性。为此,算法需要大量数据来捕获所有传入数据。
异常值、意外、不一致、乍一看没有意义的模式……算法必须在所有传入数据集中反复处理所有这些问题。这个过程是学习的基础 — 掌握识别模式、理解上下文并做出合理的决策的能力。有了足够的 AI 模型训练,模型中的算法集就可以形成给定情况的数学预测器,在尽可能提高可预测性的同时还可以容忍意外情况的发生。
关键要点
AI 模型训练是一个迭代过程,其成功取决于输入的质量和深度,以及训练人员识别和弥补缺陷的能力。训练过程通常由数据科学家负责,即使是业务用户也可以参与一些低代码/无代码环境。事实上,处理、观察、提供反馈和改进的周期类似于教会孩子一项新技能。通过 AI 模型训练,我们的目标是创建一个数学模型,在平衡数据中的许多不同可能变量、异常值和复杂情况的同时准确地生成输出。仔细想想,这就很像育儿的过程,当然育儿也会更加混乱。
想想儿童是如何学习技能的。假设您想教会一个小孩如何分辨狗和猫。您需要从基本图片开始教起,并辅以鼓励性语言。然后,再逐步添加更多的变量,包括平均体型大小、狗吠声与猫叫声以及行为模式等细节。根据小孩面对的难点,您可以侧重于某个领域,帮助他掌握相关知识。完成了这个过程后,小孩应该能够识别各种类型的狗和猫,包括从常见的家庭宠物到野生的猫狗。
训练 AI 模型也需要经历类似的过程。
AI:为模型选择算法和初始训练数据集。
小孩:根据简单的照片来识别狗和猫之间的常见区别。
AI:评估输出准确性并调整模型,以减少或消除某些不准确性。
小孩:根据答案给予赞扬或更正。
AI:提供其他具有特定多样化输入的数据集,以定制和微调模型。
小孩:在学习过程中,逐渐能够识别不同的特性、形状和大小。
初始的 AI 模型训练就像小孩的学习过程一样,可以显著影响未来发生的事情 — 如果存在不良影响,则需要通过进一步学习来消除。这凸显了质量数据源的重要性,即便在模型发布之后,质量数据源对于初始训练和持续迭代学习也仍然重要。
得益于生成分析、突出数据异常值或使用文本识别和自然语言处理的应用,大多数企业已经将 AI 引入工作流和流程并从中受益。例如,企业可以将纸质收据和文档转为电子化的数据记录。然而,许多企业希望通过开发 AI 模型来解决特定的、紧迫的需求。开发过程本身可能会解锁更深层次的优势,包括像加速流程这种短期价值,以及各种长期收益,例如发现之前隐藏的洞察,甚至还可能有助于推出新产品或服务。
企业之所以需要投资于支持 AI 的基础设施,其中一个核心原因就源自于企业的发展方式。简而言之,数据无处不在。有了这些来自全方位的数据,企业就可以获得新的洞察,包括内部运营、销售和营销团队的绩效。考虑到这一点,适当的训练和周到的应用使得 AI 在几乎任何情况下都能够提供商业价值。
那么,企业如何训练 AI 以获得更大的收益?第一步是确定输入以及做出可靠决策所需的条件。以制造供应链为例,经过训练的 AI 系统一旦能够获取所有相关数据,就可以计算运输成本,预测发运时间和质量/缺陷率,根据市场条件推荐价格变化,并执行更多任务。供应链有大量的传入数据以及数据驱动决策的需求,因此适合采用 AI 来解决问题。相比之下,对于那些软技能更重要的场景,AI 也可以提供支持信息,但不太可能带来革命性的变化。以经理在年度考核期间对员工绩效的评估为例。在这种情况下,AI 可能会使收集指标变得更容易,但却无法完成通过人与人之间的互动来进行的评估工作。
为了充分利用 AI 投资,企业必须考虑以下事项:
通过建立这些参数,企业可以确定哪些领域更可能从 AI 中受益,然后开始采取措施来实现目标。
虽然每个项目都有不同的挑战和要求,但训练 AI 模型有一套通用的流程。
简单来说,训练 AI 模型可分为五个步骤。
准备数据:成功的 AI 模型训练从准确、一致地反映真实情况的高质量数据为起点。如果数据质量不理想,其结果也就毫无意义。为了取得成功,项目团队必须精心挑选合适的数据源,构建手动和自动化数据收集流程和基础设施,并建立适当的清洁/转换流程。
选择训练模型:如果整理数据为项目提供了基础,那么模型选择则构建了机制。在选择模型时,需要考虑到定义项目参数和目标,以及应该选择什么架构和模型算法。由于不同的训练模型需要不同的资源数量,因此必须根据计算要求、截止日期、成本和复杂性等实际要素来权衡这些因素。
执行初始训练:就像上面教会孩子如何分辨猫狗的示例一样,AI 模型训练也需要从基础知识开始。使用过于宽泛的数据集、过于复杂的算法或错误的模型类型都可能会导致系统只是在单纯地处理数据,而不是学习和进步。在初始训练期间,数据科学家应该专注于在预期参数范围内获得结果,同时观察是否存在算法错误。通过不过度训练,模型可以有条不紊地持续进步。
验证训练:一旦完成了初始训练阶段,模型就能够可靠地根据关键标准创建预期结果。训练验证代表着下一阶段。在这个阶段,专家们将会着手为模型设置适当的挑战,从而发现算法中的问题、意外或空白。此阶段使用的数据集与初始阶段不同,一般比训练数据集范围更广、更复杂。
当数据科学家运行这些数据集时,他们会评估模型的性能。输出准确性固然重要,但这个过程本身也同样重要。过程中,需要关注精确度(准确预测的百分比)和召回率(正确类别识别的百分比)这两个变量。在某些情况下,可以使用指标值来判断结果。以 F1 分数为例,这是分配给分类模型的指标,结合了不同类型的假阳性/假阴性的权重,可以更全面地评估模型是否成功。
测试模型:模型经过精选且适合相关用途的数据集验证,就可以使用实时数据来测试性能和准确性。这个阶段的数据集应取自真实世界的场景,像学自行车时“去掉训练小轮子”一样,让模型自主运行。只要能够基于测试数据提供了准确且符合预期的结果,模型就可以上线了。如果模型在任何方面存在缺陷,则需要重复训练过程,直到模型达到或超过性能标准。
虽然上线是一个重要的里程碑,但到了这一阶段并不意味着模型训练就此结束。模型所处理的每个数据集都可能是 AI 的另一个“学习资料”,能够据此进一步改进和完善算法,但具体取决于模型。数据科学家必须继续监控性能和结果,特别是在模型处理意外的异常数据的时候。一旦出现不准确的结果,即使仅在极少数情况下,模型也可能需要进一步调整,以免影响未来的输出。
AI 训练有多种形式,复杂性、结果类型、能力和计算能力各不相同。有的方法可能会耗费超出必要的资源;在其他情况下,有的方法则可能会提供二元响应,例如是否批准贷款。当某种情况需要偏向定性的结果,例如在获得更多文件之前有条件地回应“不批准”。
在选择用于 AI 模型的方法时,您必须同时考虑到目标和资源;如果没有仔细规划就贸然行动,数据科学团队可能需要从头开始工作,既浪费时间,又浪费金钱。
有些 AI 模型能够使用规则和输入来做出决策,深度神经网络则可以提供基于不同数据关系处理复杂决策的能力。深度神经网络与多个层协同工作,识别数据点之间的模式和加权关系,从而支持预测输出或明智的评估。深度神经网络的其中一个例子是语音激活助手,例如 Apple 的 Siri 或 Amazon 的 Alexa。
在统计学中,线性回归用于确定输入和输出之间的关系。线性回归可以简单地以代数公式 y = Ax + B 来表示。此模型使用数据集,根据输入、输出和可能的变量系数创建公式。最终用于预测的模型会假设输入和输出之间存在线性关系。线性回归的其中一个用例是基于以前销售数据进行销售预测。
从统计学角度来看,逻辑回归是一种适用于二元情况的有效模型。逻辑回归基于逻辑函数,是一个常用于计算概率的 S 型曲线方程。在 AI 建模中,逻辑回归可以确定概率,提供二元结果,最终做出预测或决定,例如是否应该批准申请人的贷款。逻辑回归的其中一个用例是执行欺诈检测的财务应用。
大多数人都使用过决策树,甚至是与 AI 无关的情况下。决策树的工作方式与流程图中的节点相似。在机器学习中,训练过程通过迭代数据为树提供信息,以确定何时需要添加节点、需要在何处发送不同的节点路径。决策树的例子是财务贷款审批。
决策树可能会因为深度太深而出现训练数据集的过拟合问题。随机森林技术通过组合一组决策树(随机“森林”由此得名),在结果中找到最大共识或加权平均值来弥补这一缺点。随机森林的其中一个用例是根据客户资料的不同元素的各种决策树来预测客户行为。
在儿童教育方面,监督学习就是让您的孩子学习一套系统性的课程。对于 AI 建模,监督学习则意味着使用已建立的训练数据集和定义的参数来训练模型。数据科学家扮演着“老师”的身份,负责整理训练数据集,运行测试数据集和提供模型反馈。监督学习的其中一个例子是在肺部的 X 光片中发现异常细胞。训练数据集是有异常和无异常的 X 光片,可以教会模型分辨异常细胞。
我们继续以儿童教育作比方,无监督学习类似于蒙氏教育理念,让孩子们在好奇心的引导下解锁一系列的可能性,自由地自我成长。同样地,对于 AI 建模,这意味着模型无需参数或目标即可摄取已标注数据集,由 AI 来判断数据中的模式。无监督学习的其中一个例子是零售商将季度销售数据提供给 AI 模型,从而找出客户行为的相关性。
如果您曾经做出用零食来强化期望的行为,那么您就已经参与了强化学习。在 AI 层面上,强化学习始于导致正强化或负强化的实验决策。随着时间的推移,AI 会学习更好的决策(即更准确或更成功的决策),妥善处理未来出现的情况并加强正强化。强化学习的其中一个例子是 YouTube,该平台会根据观看的历史记录,生成“您可能也喜欢”的推荐列表。
AI 模型在应用于不同情况时可能会成功。AI 模型的迁移学习指的是使用现有的模型作为新 AI 项目的起点。当现有模型处理常见的场景时,重新利用模型的效果会更理想;任何过于具体的需求都可能难以重新训练。迁移学习的其中一个使用场景是基于现有图像分类模型的参数,制作一个针对特定类型图像分类的新 AI 模型。
半监督学习利用监督和无监督学习的原则,从一小组的已标注数据集开始训练模型。然后,该模型可以使用无标签和未经设计的数据集来细化模式并生成令人意想不到的洞察。一般来说,半监督学习在前几个步骤中只使用已标注数据集,就像是自行车的训练小轮子一样。结果,该过程会重度依赖未标注的数据。半监督学习的其中一个用例是文本分类模型,该模型使用精选数据集来建立基本参数,然后再为大量无监督的文本文档提供反馈。
生成式模型是一种无监督 AI 方法,使用非常庞大的示例数据集来创建提示输出,例如基于图像存档的元数据的 AI 生成图像,或基于输入句子数据库的预测文本。生成式模型的结果不仅可以简单地对输出中的数据进行分类,还可以利用数千甚至是数百万个示例数据来学习和创建原始输出。生成式模型的其中一个用例是聊天机器人,例如 ChatGPT。
训练 AI 模型需要数据,而且是大量的数据。事实上,数据是 AI 模型训练中非常关键的要素。没有数据,模型根本无法学习。如果缺乏高质量的数据,模型就会越学越错。因此,数据科学家需要有意识而谨慎地为项目选择数据集。
为了更好地训练 AI 模型,选择数据集时必须考虑到以下因素:
AI 模型训练本身面临着独特的挑战。其中一些挑战来自后勤方面 — 基础设施、计算能力以及由始至终的其他实际考虑因素。其他的挑战则需要数据科学家进行自我思考,比如了解如何减轻偏见并保持最终系统的客观性。
任何 AI 模型训练计划都应考虑到以下挑战:
数据偏差:为了从 AI 模型中获得准确的结果,AI 模型训练需要高质量的数据。数据科学家必须在整理训练数据集之前彻底审核数据源,从而减少数据偏差。
正确的数据:训练数据集需要大量的数据来代表足够的多样性和粒度。相关团队不仅需要管理大量的质量数据,还需要考虑到许多实际的因素。随着数据集越来越大,存储、清理/转换、处理和一般质量控制都会变得越来越困难。
计算能力和基础设施要求: AI 模型越复杂,所需的计算能力和基础设施支持力度就越大。在选择模型方法时,您需要考虑到运行模型(包括从训练到上线)的实用性。如果该模型所需要的资源多于可交付的资源,整个项目就会崩溃。
过拟合:当 AI 模型与训练数据集过于匹配时,就会锁定在这些细节上,无法处理多样性和意外情况。这种现象被称为“过拟合”,导致模型无法准确预测未来。过拟合的其中一个例子是训练数据集达到了 99% 的准确率,但现实世界的数据集的准确率却只有 75% 到 85%。请注意,AI 的感知准确性指的是系统基于其当前能力的准确性表现。这是用户或利益相关方观察或体验到的准确性。另一方面,AI 可能达到的准确性是指系统在理想条件下、拥有足够的资源时能够达到的准确性水平。了解感知准确性和潜在准确性之间的差异,对于评估 AI 系统的性能以及确定需要改进或在未来发展的领域非常重要。
“过拟合”和“过度训练”这两个术语经常存在混用现象,但其实两者具有不同的含义。如前所述,过拟合指的是 AI 针对训练数据的表现非常出色,但无法基于新数据生成理想的结果。过度训练则是指模型经过过度训练,导致训练数据和新数据的性能不佳。当模型训练时间过长或过于复杂时,可能会发生过度训练,导致模型难以生成理想的结果。我们必须在模型训练过程中避免这两种问题。
可解释性:在 AI 建模中,其中一个重大的问题是决策过程缺乏可解释性。用户可以根据输出进行推断,但模型的原因可能还是模糊不清。有些开发人员创建了弥合这种差距的工具,其中包括具有更透明的可解释性的模型。然而,无论是输入还是输出,实现、可用性、细节和可访问性都是不同的。
虽然 AI 自计算机诞生以来就已经以某种形式存在,但在过去二十年中,各方面的进步,例如算法、CPU 能力、图形处理单元 (GPU) 能力以及基于云技术的资源共享明显推动了 AI 的发展。AI 已经嵌入到许多应用中,以至于许多用户往往使用了 AI 而毫不自觉。当您上网听音乐时,您的个性化歌单就是 AI 根据您喜欢的歌曲和歌手分析得出的结果。当您输入文本消息时,AI 会根据您常用的单词提供预测性推荐单词。如果您通过自动推荐功能发现了喜欢的电视节目,这也是 AI 的功劳。
这就是现在的 AI,但未来将会如何呢?
AI 的潜力取决于模型训练的能力的演变。让我们来看看 AI 模型训练在未来的可能性。
如果您感觉 AI 的创新呈指数级增长,那是有充分理由的:过去十年间,数据和连接的爆炸式增长使得 AI 系统的训练变得更加容易,复杂的模型得以实现,不断改进的新算法也提高了成功的概率。因此,在未来十年内,再难的目标也可能会实现,其中包括深度推理,即 AI 能够理解某种情况背后的原因和发生经过;使用较小的数据集提高训练效率;以及从无监督学习中延申出更高效、更准确的模型。
对于人们来说,掌握可转移的技能更容易开始新的任务,有助于提高可就业性和生产力。这一点同样适用于 AI 中的迁移学习。然而,实现有效的迁移学习的过程中仍然会面临许多挑战。目前,迁移学习在与原始模型相似的领域中才能够发挥理想的效果,限制了其使用范围。想要扩展迁移学习的能力范围,就需要更多的计算能力和资源来支持更复杂的再训练。如果缺乏效率和处理方面的创新功能,从头开始构建模型可能会更加容易。
AI 的强大特征之一是能够比人类更快、更准确地执行任务,帮助运输人员、会计师等需要执行重复性任务的人员减轻工作负担。当然,要想达到这一点,企业需要投入时间和精力来整理数据集、观察输出和调整模型。
市面上有各种 AI 模型训练工具可以加快开发和训练过程。这些工具包括预构建的模型库、开源框架、编程和环境助手以及梯度增强。有些工具依赖于所使用的模型类型,有些工具则需要某个水平的计算资源。
要想确定什么工具更适合您的项目,您可以尝试回答以下问题:
这些答案可以帮助您罗列出有效的工具,从而支持您的 AI 模型训练流程。
训练复杂的 AI 模型可以是一项资源密集型计划,因为成百上千的独立服务可以协调和共享信息。Oracle Cloud Infrastructure (OCI) 提供通过高性能以太网网络连接的 GPU,帮助客户节省时间和金钱,同时充分提高可用性和稳定性。借助 OCI,客户可以获得简单、快速的互连,支持大规模训练和部署高度复杂的模型。
机器学习是 AI 的雏形,基于由高能计算驱动的密集规则和概率构建而成。超级计算机 Deep Blue 就是以这种方式参加了世界级的国际象棋比赛。然而,AI 已经超越了使用外部数据支持的规则。现在,AI 模型通过大量数据集的训练来生成内部洞察。虽然有些 AI 模型仍在使用基于规则的决策树,但很多模型都是通过神经网络来支持复杂的流程和预测。
AI 的进步令人欣喜,但这项技术的未来发展取决于高质量的训练。
无论是进行哪个级别的模型训练,企业都希望能够确保完整地记录了相关数据集和机构知识。为了实现这一目标,其中一个好方法是打造 AI 卓越中心,在获得训练支持之余也能够享有诸多优势。
什么是 AI 模型训练?
AI 模型训练是指为 AI 模型提供精选数据集以提高其输出准确性的过程。这个过程可能会很长,具体取决于 AI 模型的复杂性、训练数据集的质量和训练数据的数量。一旦训练过程通过了基准测试并取得预期的成果,数据科学家就会继续监测结果。如果精度下降或模型难以处理某些类型的数据,则模型可能需要进一步训练。
我可以在哪里训练 AI 模型?
如果可以访问所需的数据,任何拥有适当工具的人都可以使用任何 PC 来训练 AI 模型。其中的步骤包括确定问题、选择训练模型、查找训练数据集以及运行训练流程。这可以是本地的小规模或者是企业级的大规模项目,具体取决于项目范围和可用资源。新手或独立开发人员可以利用云技术服务,该服务可为多种编程语言提供 CPU 资源,无需考虑地理位置因素。
训练 AI 模型需要多少的成本?
AI 模型的训练成本取决于项目的范围。在整个行业中,CPU/GPU 功耗和云技术访问能够提供的资源越来越多,因此成本持续下降。事实上,根据斯坦福 Institute for Human-Centered Artificial Intelligence 的 AI Index 的数据,2017 年一个小项目的平均训练成本为 1000 美元,但 2022 年的成本仅需要 5 美元。
相比之下,大型企业 AI 项目的成本其实正在增加。例如,像 ChatGPT 这样的训练预计需要 300 万至 500 万美元。这种差异除了归结于项目的复杂性,不断增长的资源也使得越来越复杂和突破界限的项目得以实现 — 只要您负担得起。
如何学习 AI 建模?
想要学习如何进行 AI 模型训练,您需要接受正式教育或在职培训。掌握专业知识后,再从创建 AI 模型所涉及的四个步骤开始。
AI 模型有哪四种类型?
一般来说,AI 模型可分为以下四种:
有些数据科学家还会使用迁移学习,以现有的 AI 模型作为新模型的起点,或使用半监督学习,将监督和无监督学习结合在一起。
注:为免疑义,本网页所用以下术语专指以下含义: