"What is AI？"

参考：https://ruben.substack.com/p/claude-for-dummies?r=89ufcq&utm_campaign=post-expanded-share&utm_medium=web&triedRedirect=true By Ruben Hassid

我花了很久才搞懂AI到底是什么，这是我希望当初有人写给我的那篇文章

作为非科班学习者，从好奇阶段开始过度到现在的系统化学习。我读过N篇推特上的AI相关内容，关于claude、关于skill、关于prompt，但是无法找到一篇基础文章帮我理解这是个什么东西。

What is AI？#

AI（Artificial Intelligence人工智能），基于深度学习网络的一款让机器表现出类似人类智能的技术。

如果是一名非人工智能或者计算机从业者，你其实不需要去死磕关于人工智能的底层内容，深度学习、视觉技术、生成式对抗网络这些词藻只会影响使用者的体验。但正如使用互联网的人多少听过“大数据”一样，有些概念，你见过，才能更好的使用它。

互联网是因，AI是现阶段的果。

全球80亿人，有超55亿人都在网络上留下过足迹，你在网络上留下的每一条评论、每一篇博客，都会被当作一条数据储存起来，这些是你作为“人”，在互联网上留下的信息。人类几十年来在网上公开发表的海量文字，经过筛选加工，喂养出了一个个模型（LLM Large Language Model大语言模型）。

【插图1：互联网是因，AI 是果——海量人类数据喂养大语言模型】→ W:\Workspace\ELK-Notes-assets\AI-What is AI\01-framework-data-feeds-llm.png

模型的世界：Token#

模型非人，无论你输入的是汉字、英文、阿拉伯文，它都需要首先理解你表达的意思，它没有“语义”、“词语”、“字”、“单词”这些人类概念，模型依靠的是Token。token不一定特指一个单词或者字，举个例子： “帮我把本月财务流水整理成Excel表格” 它可能会把“帮”、“我”、“把”、“本月”、“财务”、“流水”、“整理成”、“Excel”、“表格”......各自作为一个token，当然具体要怎么切分是由模型背后的统计规律决定。每个Token会被转成一长串数字，模型对这些数字进行加工计算，最后算出来你表达的含义。token不只是原理知识，它直接关系使用体验——AI的对话长度上限、API按量计费、"上下文窗口"的大小，全都是用token计量的。所以模型可以理解：我在吃“苹果”和“苹果”发布会是不同的意思。

【插图2：句子如何变成 Token——模型的理解流水线】→ W:\Workspace\ELK-Notes-assets\AI-What is AI\02-flowchart-token-pipeline.png

它是计算，而非思考#

如果你曾经使用过豆包、Deepseek、通义千问，就会很熟悉一个概念：“思考中”，你的每一次提问，模型在回答之前都会先理解你表达的意思，然后经过成千上万次的搜索、整理、分析，最终生成给你一个回复。

人工智能的“人工”两个字恰恰点出了本质：它并不真正具备思考能力，只能用计算模拟出类似思考的过程和结果。人类思考依靠大脑中近千亿个相互连接的神经元，而模型是通过无数个计算式对输入token的层层加工，进行发散性检索和整理，这也正是开头深度学习网络这个词的由来。所以看起来是与人类一样的过程：输入-->思考-->输出。用思考来形容AI这不准确，思考是人类特有的行为，用计算来描述模型的这个过程更合适。在发出回答你的文字时，可以看到文字是一个接着一个，流水一样的被展示出来，就是因为模型在一边计算一边输出。

【插图3：计算，而非思考——人脑 vs 模型】→ W:\Workspace\ELK-Notes-assets\AI-What is AI\03-comparison-compute-vs-think.png

AI模型=实习生#

和模型聊天就像跟朋友一样，区别在模型不知道你是谁。它对你的回复不掺杂任何情感，只会基于你的话题给出答复，它本身没有对和错的概念，只追求合理性，这就导致它会一本正经的说错话（幻觉），还有迎合你的迹象，你的语气越笃定，它就越容易顺着你说。所以deepseek在模型回复你的后面加上了：“本回答由 AI 生成，内容仅供参考，请仔细甄别。”

最被人熟知的用法是在手机上下载一个AI软件，比如前面提到的豆包，你可以随时跟他聊天，或者在电脑上访问它们的网站。

关于它的记忆 每一次开启新对话，它会忘记全部之前探讨的话题。新对话（session）开始，AI的记忆仅仅保留在当前对话内。在一个独立对话框里，你问得越多，它状态越好。但这种记忆是有限的（即上下文窗口Context Windows），会话长度抵达模型本身的技术限制就会出错。

大多数使用者没有被上下文卡住的感受是因为，日常的对话即便是像完成一篇论文这样的超长文本，也不会触碰到上下文长度的极限。在一个独立会话内，从第二轮对话开始，你每次向它提出问题，模型都会默默把你之前说过的所有历史记录连同新问题一起打包重新喂给模型，来服务你最新的一次请求，感官上仿佛它能记住上次你的问题，这已经足够满足99%的用户的需求。所以，微信里的“删除聊天记录”是真删，而AI的“开启新对话”，则是为了给它换张纸继续计算。

【插图4：AI 的记忆——会话与上下文窗口】→ W:\Workspace\ELK-Notes-assets\AI-What is AI\04-infographic-memory-context-window.png

长记性和联网#

长文本（Long Context）：为什么用户现在可以直接丢一本书、50页的PDF文件给模型处理？因为现在的模型（Deepseek、Gemini）的上下文窗口已经进化到了几十万甚至上百万Token。并不是模型记住了，而是它的大脑容量增加，能够瞬时把一整本书的token打包进计算公式中。

大众对AI普遍印象是他无所不知，能够给你每天的实时新闻、天气。实际情况是模型的记忆会截止在被训练的那天，比如它不知道今天的网络上有什么热点。而你使用的对话式AI都已经集成了联网能力，当你的请求需要它联网搜索时，它就会变成一个网络爬虫去百度或Google检索与你话题相关的内容，对这些内容进行再加工和计算后打包发送给你。

交互进化：多模态#

单纯的文字交流，只能满足一部分用户，现有主流模型已经具备图像、视频、音频的多模态计算能力。一张PPT截图、一声叹气、一段电影切片都可以被模型理解，背后的逻辑也是被AI转译成一串数字--token，加工计算。

行动进化：AI Agent#

模型本身只能够输出文本，就像人类通过说话来指挥其他人或工具进行工作，模型现在同样可以做到。现在的AI具备了工具调用（Tool Using）的能力，这不亚于人类历史上发明了犁可以用来耕地。模型通过自己输出一段代码，然后由工具来调用执行这段程序，就可以替你干活。你告诉它“帮我把本月财务流水整理成Excel表格”，它一通计算之后发现自己做不到，就会跑去调用python代码、自己生成一个.xlsx文件直接扔给你下载。这种计算-->调用工具-->自动化执行的过程才是真正的“智能体”行为。

【插图5：AI Agent——从计算到行动（工具调用）】→ W:\Workspace\ELK-Notes-assets\AI-What is AI\05-flowchart-ai-agent-tool-use.png