1、AI进行数据分析的基本步骤
就像大厨做饭得先备菜一样,AI分析数据也得按流程来。
第一步:数据收集
数据收集,比如想分析电商销量,就得把订单时间、商品类别、价格这些“食材”捞出来,这里可以用Python的pandas库写句df=pd.read_csv('电商订单.csv')先把数据读进表格里。
第二步:数据清洗
数据清洗,这相当于摘菜去泥沙,比如处理缺失值时,跟AI说“把年龄列的空值用平均值填上”,它就会自动补全;遇到“身高20米”这种离谱数据,得告诉AI“过滤掉身高大于3米的异常值”。
第三步:确定分析目标
确定分析目标,比如想知道“哪个商品最受欢迎”,就像告诉厨师“我要做番茄炒蛋”,目标越具体,AI越不容易跑偏。
第四步:选择分析工具
选择分析工具,用ChatGPT分析时可以说“帮我分析这个Excel里各商品的销量趋势,用图表展示”,而专业点的可以用Python写seaborn.lineplot(x='时间',y='销量',hue='商品类别',data=df)画趋势图。
最后一步:解读结果
解读结果,比如AI画出销量折线图后,你得琢磨“为什么夏季冰淇淋销量突然暴涨”,可能是天气热这个隐藏因素在搞鬼。
2、AI进行数据处理的基本提示词
清洗数据类提示词:
“把表格里‘客户年龄’列的空值都换成‘未知’”“删除‘订单金额’列里小于0的数据”;
“把‘日期’列的格式统一改成YYYY-MM-DD”;
举个例子,当你拿到一个有缺失值的Excel,可以对AI说“请检查Sheet1里的所有数据,用中位数填充‘工资’列的空值”。
数据转换类提示词:
“把‘性别’列的‘男’‘女’换成数字1和0”“将‘身高(cm)’列的数据除以100转换成米”;
“给‘购买次数’列加上‘是否高频购买’标签,次数≥5次的标为‘是’,否则标为‘否’”。
比如想把体重单位从斤转成公斤,就跟AI说“把‘体重(斤)’列的数据全部除以2,生成新列‘体重(公斤)’”。
数据筛选类提示词:
“只保留‘城市’列中等于‘上海’和‘北京’的行”“找出‘考试成绩’列中大于80分的学生记录”;
“筛选出‘购买时间’在2023年1月1日之后的订单”。
比如想挑出高薪人群,就说“筛选出‘月薪’大于10000元且‘工作年限’超过5年的员工数据”。
3、AI做可视化和分析报告的流程
这就像用PPT做述职报告,得先搭框架再填内容。
第一步:选对图表类型
选对图表类型,比如展示各商品销量占比就用饼图,跟AI说“用饼图展示‘商品类别’列的占比,标题写‘2023年商品销售占比’”;展示销量随时间变化就用折线图,说“画折线图,x轴是‘月份’,y轴是‘销量’,每个商品类别用不同颜色区分”。这里可以参考示例提示词:“帮我用Python的matplotlib库生成一个柱状图,比较不同地区的销售额,要求颜色鲜艳,添加网格线,x轴标签旋转45度”。
第二步:美化图表细节
美化图表细节,比如让AI“把折线图的线条加粗到3像素,颜色换成蓝色”“给饼图添加百分比标签,字体大小设为12”“去掉图表的边框,只保留横向网格线”。
第三步:生成分析报告框架
生成分析报告框架,让AI先搭好“背景-数据来源-关键发现-建议”的架子,比如它可能会生成:“本次分析基于2023年1-12月的电商数据,共包含10万条记录。关键发现:夏季冰淇淋销量占比达35%,较其他季节高出20%;建议在夏季增加冰淇淋促销活动。”
第四步:填充具体分析内容
填充具体分析内容,对着图表问AI“为什么A商品销量突然下降”,它可能会分析“因为6月竞争对手推出了同类产品,价格低15%”,然后把这些分析填进报告里。
最后一步:检查逻辑连贯性
检查逻辑连贯性,让AI通读报告后说“这里销量增长的原因分析和后面的建议没有对应上,需要补充促销策略的关联性”。
4、AI进行建模分析的要点
第一:明确建模目标
比如“我想预测明天的气温”和“我想分类垃圾邮件”是完全不同的目标,得跟AI说清楚“我要做一个回归模型预测房价”或者“我要建一个分类模型区分猫狗图片”。
第二:数据预处理
比如做房价预测时,得把“房屋面积”“楼层”这些数值型数据归一化,跟AI说“对‘面积’列进行标准化处理,让数据分布在0-1之间”;把“朝向”这种文本数据转成数字,说“将‘朝向’列转换成独热编码”。
第三:选择合适的模型就像选工具
简单线性关系可以用线性回归,跟AI说“用线性回归模型分析‘广告投入’和‘销售额’的关系”;
复杂的分类问题可以用随机森林,说“用随机森林模型对客户是否流失进行分类”。这里可以给AI一个示例提示词:“帮我比较线性回归、决策树、随机森林三种模型在预测房价上的效果,要求输出各模型的均方误差和决定系数”。
第四:调参优化
比如随机森林的“树的数量”参数,设太小像小孩搭积木不稳固,设太大又费时间,可以让AI“自动搜索随机森林模型的最佳参数,树的数量范围设为50-200,最大深度设为3-10”。
第五:评估模型
评估模型得客观,不能只看准确率,比如癌症预测模型,哪怕准确率99%,但漏掉1个病人就麻烦了,得让AI计算“精确率、召回率、F1分数”,并说“用10折交叉验证评估模型稳定性”。
第六:解释模型
解释模型结果时,别让AI说“魔法使然”,得让它“解释为什么模型认为这套房子价格高,是因为面积大还是地段好”,比如AI可能会说“模型中‘地段’特征的重要性占比达40%,是影响房价的最主要因素”。