1. 从《大空头》到AI热:我们是否在重蹈覆辙?
上周我重温了电影《大空头》,这部片子从几位提前预见到次贷危机即将爆发的局内人视角,描绘了全球金融危机前的景象。电影里最让我深思的一点是,那些最终导致整个系统崩溃的金融衍生品,最初被创造出来时并非出于恶意。它们更像是“房间里的大象”——每个人都看到了问题,但出于利益、无知或惰性,选择了视而不见。通过走捷径、忽视风险,加上大量从业者缺乏足够的知识或动力去做尽职调查,这些产品最终变成了滴答作响的定时炸弹。这是一个典型的复合效应:每一个微小的、在当时看来无关紧要的选择,经过时间的指数级放大,最终累积成一场巨大的资本(或债务)灾难。
这让我联想到我们目前所处的领域——人工智能。我们的创业公司正处在一个日益炙手可热的赛道里。这本身不是坏事。它意味着投资者、竞争对手和潜在合作伙伴会认真对待我们,这打开了原本可能不存在的资金和机会之门。它也意味着我们相对容易获得媒体报道或SEO流量。然而,凡事都有两面性。随着关于AI的讨论日益主流化,我们将会看到大量未经证实、不完整甚至完全错误的“事实”充斥市场。这不禁让我思考:我们是否正在用误解和炒作,亲手吹起另一个科技泡沫?
正如金融大鳄乔治·索罗斯所言:“股市泡沫并非凭空产生。它们基于现实,但却是被误解扭曲了的现实。”今天,我想直面一些我遇到的对AI的常见误解,厘清“人工智能”到底意味着什么,并确保我们不会基于对其能力的错误认知,过度吹捧AI公司的前景。更重要的是,探讨我们——无论是创业者、投资者还是用户——应该如何建立合理的预期,避免重蹈覆辙,共同构建一个健康、可持续的AI生态。
2. 祛魅第一步:你说的“AI”,到底是什么?
首先,我们必须停止用“AI”这个词来指代一切!好莱坞电影里的“AI”或“人工智能”,是一个真正运行在硅基芯片上的超人脑。一个能够思考、推理、做梦,并且最重要的是能够自我改进的大脑。频繁使用这个术语,常常会描绘出一幅错误的图景。
因为今天我们周围看到的大多数所谓“AI”,实际上是机器学习。它本质上是对数据进行操作的数学表达式,以获得“统计”层面的洞察——没什么神秘的!即使是像在《危险边缘》节目中获胜的IBM Watson这样的先进系统,也并非真正的AI。如果我们查看IBM官网的描述,会发现他们是这样定义的:“IBM Watson是一个技术平台,它使用自然语言处理和机器学习,从大量非结构化数据中揭示洞察。”换句话说,它是一组算法,其参数经过训练,能够从一大块非结构化文本中提取结构化数据(比如识别年份、人名、名词,将它们放入数据库,并将这些概念关联起来)。
诚然,在机器学习的一些领域,如神经网络,确实从大脑的实际工作方式中汲取了大量灵感。但把这称为AI,就好比把飞机称为鸟。是的,飞机经过优化,非常擅长飞行和运输货物,事实上在某些方面比鸟更出色。然而,如果我们要求它独立生存,它会一败涂地(事实上,它甚至无法理解这个请求)。
这里需要指出的关键是,当人与机器形成共生关系时,伟大的事情才可能发生!通过利用我们机器伙伴的可扩展性、持续性和无情绪特质,并将其与我们人类的情感、想象力和多才多艺相结合,我们才能共同创造价值。我们确实正在快速迈向真正AI的征途,这是否是件好事完全是另一个话题,但像埃隆·马斯克这样的人投身于AI研究领域,本身就预示着我们前方将迎来巨大变革。
但请记住:还不是现在!仅仅因为某人经营着一家“AI”公司,并不意味着他们将要毁灭世界,也不意味着他们能帮你点石成金。这引出了我的下一个误解。
注意:在技术讨论和商业沟通中,精确使用术语至关重要。将“机器学习”或“预测分析”等具体技术泛称为“AI”,虽然有助于市场传播,但会模糊技术能力的边界,导致不切实际的期望。作为从业者,我们有责任在内部和对外沟通中保持清晰。
3. 核心误解剖析:数据、算法与价值的真实关系
3.1 “我们有很多数据,所以就能用AI挖出金矿”
我经常听到的一种说法是:“我们多年来一直在保存数据,现在用一个很棒的机器学习算法分析了我们的大数据,我们得出结论……” 这句话至少存在两个问题。
首先,是那种认为“只要拥有大量数据,其中就必然包含有用信息”的观念。数据量不等于数据质量,更不等于数据价值。你可能一直在收集错误的数据、有偏见的数据或高度随机的数据。如果不理解数据包含什么、它是如何获得的,并且不去挖掘其中有用的信号,就很容易使用错误的算法并得出错误的结论。例如,一家电商公司可能积累了十年的用户点击日志,但如果这些日志没有清晰标记用户最终是否购买,或者充满了机器人流量,那么直接用这些数据训练推荐模型,效果可能适得其反。
第二个错误是相信存在一个简单的、可以即插即用的“AI系统”或算法。我认为,尤其是随着“泡沫型AI初创公司”的兴起,这种论调会越来越多。是的,市面上有很棒的工具包和算法(如Scikit-learn, TensorFlow, PyTorch),但它们需要与性能基准测试、A/B分割测试(机器学习中称为交叉验证)相结合,并且需要对算法的优缺点及应用领域有深刻理解,才能真正交付价值。
机器学习模型不是一劳永逸的“设置好就忘掉”的算法。它们需要持续优化和改进,因为新的数据会不断涌入,业务环境也在变化。这就是为什么,除了你的“数据”管道,建立一个“验证”循环同样至关重要。这与Hampus Jakobsson在其文章中描述的如何验证你的核心指标非常相似。你需要一个闭环:行动(如推送推荐)-> 产生数据 -> 模型学习 -> 评估效果 -> 调整行动。没有这个持续反馈和验证的循环,所谓的AI系统很快就会与现实脱节,产出毫无价值的“垃圾进,垃圾出”的结果。
3.2 “我们是一家AI公司”——标签背后的巨大差异
我认为这是我们将越来越多地听到的第三类误解。如果投资者(或者更糟的是,创始人自己)缺乏对他们如何利用机器学习来实际创造价值的理解,他们就会开始简化和概括,以至于将每一家AI公司都扔进一个大筐里。
当然,问题在于大多数AI公司实际上并不那么相似。有些公司专注于自然语言处理(如智能客服、文本分析),有些专注于计算机视觉(如人脸识别、医学影像分析),还有些专注于数据聚类、异常检测或强化学习。这些公司在交付价值的方式、盈利模式和发展路径上也存在巨大差异。
Shivon Zilis曾写过一篇关于不同类型机器学习公司的精彩文章。随着这个领域的发展,我们应该开始看到更多的“细分类型”或“专业领域”,而不是更少。将一家做图像识别的安防AI公司与一家做金融风险预测的AI公司混为一谈,就像把一家汽车制造公司和一家航空公司都称为“交通公司”一样,虽然没错,但完全无法指导具体的投资决策或合作评估。
对于投资者和合作伙伴而言,关键不是问“你们是不是AI公司?”,而是问:“你们具体解决了哪个领域的什么问题?用了哪种机器学习方法?你们的模型在关键业务指标上的表现如何?数据从哪里来,如何保证质量?你们的验证循环是怎样的?”这些问题才能穿透“AI”这个华丽标签,触及商业和技术的实质。
4. 构建可持续AI业务的实操要点
4.1 从问题出发,而非从技术出发
这是AI项目失败最常见的原因之一。许多团队因为掌握了某项酷炫的技术(比如GPT或扩散模型),就迫不及待地想找场景落地。正确的方式应该反过来:首先深入理解一个具体、有价值且存在痛点的业务问题。这个问题最好是数据可获取、效果可衡量的。例如,“如何将客服工单的首次响应时间降低30%”比“我们想用AI改善客服”要好得多。
一旦明确了问题,再评估机器学习是否是合适的解决方案。有时候,一个简单的规则引擎或流程优化可能比复杂的机器学习模型更有效、成本更低、也更可解释。这种“技术适用性评估”是避免资源浪费的第一步。
4.2 数据基础建设:脏活累活,但无可逃避
没有高质量的数据,任何先进的算法都是空中楼阁。数据基础建设包括:
- 数据收集与标注:确定需要哪些数据,如何合法合规地获取。对于监督学习,高质量的数据标注是模型性能的天花板。标注过程需要清晰的规范和质检,防止引入偏差。
- 数据清洗与预处理:处理缺失值、异常值、格式不一致等问题。这部分工作通常占一个数据科学项目80%以上的时间,枯燥但至关重要。
- 特征工程:将原始数据转化为模型能够理解的特征。这是将领域知识注入模型的关键环节。好的特征工程往往比换用更复杂的模型更能提升效果。
实操心得:不要试图一开始就建立一个完美的大数据平台。采用敏捷方法,针对最小可行产品(MVP)所需的最小数据集进行建设。使用云服务(如AWS S3, Azure Blob Storage)和开源工具(如Apache Airflow用于调度,Great Expectations用于数据质量检查)可以快速起步。关键是要建立可重复、可追溯的数据流水线。
4.3 模型开发与迭代:科学而非玄学
模型开发不是一次性的魔法,而是一个科学的迭代过程:
- 基准模型建立:首先用一个简单的模型(如逻辑回归、决策树)建立性能基准。这有助于理解问题的难度,并确保后续复杂模型的提升是真实的。
- 模型选择与训练:根据问题类型(分类、回归、聚类等)和数据特点选择候选模型。务必使用交叉验证来评估模型泛化能力,防止过拟合。
- 评估与解释:不仅要看准确率、AUC等整体指标,还要分析模型在关键子群体上的表现(公平性),并尽可能使用SHAP、LIME等工具解释模型预测,增加透明度和信任度。
- 部署与监控:将模型部署到生产环境(如使用Docker容器化,通过REST API提供服务)。部署后必须建立监控体系,跟踪模型性能衰减、数据分布变化(数据漂移)和预测结果分布变化(概念漂移)。
4.4 构建产品-数据-模型的正向循环
一个健康的AI业务,其核心是一个能够自我强化的飞轮:
- 产品吸引用户产生行为数据。
- 行为数据经过处理,用于训练和优化模型。
- 更优的模型提升产品体验和效果。
- 更好的产品吸引更多用户,产生更多数据……
打破这个循环的任何一环,增长都会停滞。因此,AI公司的组织架构也需要适应这一循环,确保产品、工程、数据科学和运维团队紧密协作,而不是各自为战。
5. 给创业者、投资者与从业者的避坑指南
5.1 给AI创业者的忠告
- 警惕“技术解决方案寻找问题”的陷阱:你的起点必须是市场需求和用户痛点,而不是你手中的锤子(技术)。不断问自己:用户真的需要这个吗?他们愿意为此付费吗?
- 保持技术栈的简洁与可维护性:在早期,优先使用成熟、有社区支持的开源工具和云服务。避免过度工程化和追求技术上的“炫技”。系统的可靠性和可维护性比使用最新潮的论文模型更重要。
- 重视数据壁垒与商业闭环:你的长期竞争优势很可能不在于算法(开源和论文使其快速 commoditized),而在于你独有的、高质量的数据,以及将技术嵌入业务流程形成的闭环。思考如何合法地获取、积累和保护你的数据资产。
- 诚实面对能力边界:在融资和对外宣传时,清晰说明当前技术能做到什么、不能做到什么。过度承诺短期内可能吸引关注,但长期会摧毁信任,并让你背负无法交付的压力。
5.2 给AI投资者的建议
- 做足技术尽职调查:即使你不是技术背景,也需要学习基础知识来理解风险。可以阅读像《机器学习实战》(Hands-On Machine Learning)这样的入门书籍,或者聘请独立的技术顾问。关键是要能判断团队是否真的理解他们所用的技术,而不仅仅是堆砌术语。
- 穿透“AI”标签看本质:重点关注以下几个问题:
- 市场与需求:他们解决的是真问题还是伪需求?市场规模有多大?
- 数据优势:他们如何获取别人难以获得的数据?数据质量如何?
- 产品化能力:技术如何转化为用户可感知的产品功能?用户体验如何?
- 团队构成:团队是否兼具领域知识、数据科学和软件工程能力?是否有能力将原型转化为稳定服务?
- 商业模式:如何赚钱?客户生命周期价值(LTV)和获客成本(CAC)是否健康?
- 关注单位经济效益和增长效率:AI项目初期可能在基础设施和数据标注上投入较大。要分析其边际成本是否随着规模扩大而显著降低,以及增长是来自资本驱动还是产品驱动的自然增长。
5.3 给AI从业者的思考
- 伦理与责任:你构建的模型可能会影响人们的贷款申请、工作机会甚至司法判决。必须将公平性、可解释性和隐私保护纳入设计考量,而不是事后补救。
- 持续学习:这个领域变化极快。需要保持持续学习的状态,但也要有判断力,不是每一个新出现的框架或论文都值得立即投入生产环境。
- 沟通能力:能够向非技术人员(管理者、客户、合作伙伴)清晰解释复杂的技术概念、模型局限性和业务价值,是一项至关重要的软技能。避免陷入“技术黑箱”,学会用故事和业务结果来沟通。
6. 未来依然光明:在理性中前行
如果你对AI公司感兴趣,或者正在考虑投资它们,请务必做好你的功课。即使你不是技术背景,也有大量优秀的书籍和在线课程可以帮助你至少理解足够的知识,以便在事情不对劲(或者对劲)时有所察觉。
我真诚地相信,我们将看到一些了不起的新公司,以独特而令人兴奋的方式交付价值。这个领域的潜力是真实且巨大的——从加速药物发现、个性化教育到提升能源效率。关键在于,我们需要的是建立在坚实技术基础、清晰商业逻辑和负责任伦理观之上的“AI实业”,而不是追逐风口、炒作概念的“AI泡沫”。
这个过程需要创业者脚踏实地,投资者明辨真伪,从业者坚守匠心,用户保持理性。只有这样,我们才能充分利用这项变革性技术的潜力,避免让它成为下一个在误解和贪婪中吹起、最终破裂的泡沫。正如我们自己在Lead Wizards努力的方向一样,真正的价值创造来自于持续解决实际问题,并在人与机器的协同中不断迭代和成长。在下一篇文章中,我将更深入地探讨许多AI公司选择的起步方式,以及这个看似有些“欺瞒”的过程,实际上如何成为理解问题、并在长期内交付真实价值的关键。