AI 引领的企业级智能分析架构演进与行业实践
演讲嘉宾|李飞
编辑 |Kitty
策划 |QCon 全球软件开发大会
你是否想过,数据分析能像对话一样简单?大模型技术正掀起巨浪,推动企业智能分析从“工具辅助”迈入“决策协同”的新纪元。在 InfoQ 举办的 QCon 全球软件开发大会(北京站)上,数势科技 AI 负责人李飞深度剖析了智能分析落地企业的核心路径与实战要点。
预告:10 月 23 - 25 日,QCon 上海站重磅推出「大模型驱动的智能数据分析」专题,直击大模型在可信分析、可视化、自动决策与主动服务中的前沿应用。从工程架构到业务价值,为您全景展现技术落地图谱,洞见未来趋势。敬请锁定!
以下为演讲精华实录(经 InfoQ 精编)。
1 企业数据分析与洞察的难点和挑战
中国数字化转型十余年,企业数据建设呈三层分化。首层是广泛覆盖的数据仓库;次层是提升业务效能的BI系统,但多局限于业务域,集团级数据常因口径不一而难以统一;第三层,部分先锋企业已构建场景化指标平台。面对这三层异构系统,智能分析平台必须建立统一标准(如MCP协议),打通数据孤岛,形成上层应用的核心入口。
工具层面,企业内部充斥着Python、SQL、低代码平台等多样化技能与组件。一家成熟企业的数字工具箱往往庞杂无序,技能散落各处。智能分析平台如何整合这些能力?如何压缩漫长分析链路?如何激活沉睡资产?这三大挑战亟待破解。
2 数据分析为什么要结合 Agent
为何Agent是破局关键?传统搜索引擎需人工筛选,推荐系统易陷入信息茧房。大模型凭借精准生成与检索,有望打破壁垒。在物理世界,人既检索信息,也检索工具。Agent正扮演“智能连接器”角色,将信息与工具无缝整合,成为企业落地智能分析的理想支点。
Agent不仅能连接,更能极大提升效率。数据分析交互历经代码编写、图形化操作,现已步入自然语言对话时代。用户习惯已被养成,他们渴望在专业领域用对话完成任务。但关键在于,从BI到大模型,必须实现数量级的效率跃升,否则应用价值有限。Agent正是实现这一跨越的引擎。
Agent落地需平衡“快思考”与“慢思考”。基础任务要求迅捷响应,复杂任务则允许更长时间以换取高质量输出。产品机制需设计多元Agent类型,以适配不同场景需求——从即时查询到深度分析,战术灵活多变。
综上,Agent能重构冗余流程,将数据分析能力民主化,覆盖更广泛人群。
通用Agent数据分析流程依赖两大核心:编排器与固定工作流。短平快任务用固定设计,复杂灵活场景用流程编排,兼顾稳定与弹性。Agent工具必须丰富多样,这是其核心能力。需建立专属的结果评估体系。
3 Data Agent 技术路线的选择和升级
我们为数据分析Agent设计了完整流程。用户请求预处理阶段,区分数据对象(如关系、口径)与逻辑对象(如编排方式)。对象编排需处理从属与冲突关系。随后,大模型生成DSL,结合多步思考、解码与投票策略确保输出稳定。后处理阶段包括错误修正、一致性检查与重排序,严控质量。
降低Agent输出SQL错误率,需聚焦四点:
关联数据模型与业务场景,减少大模型关联错误。例如,表关联时需考量显性、模糊乃至隐性关联关系。
处理字段冗余存储,降低选择错误。解决多表合并时的字段冗余问题。
压缩文本生成长度,降低时间成本与错误传递。过长的token生成易拖慢速度、积累误差。
提前优化查询语句,减少慢SQL生成。事后优化往往事倍功半。
语义层处理是Agent落地要害。广义语义层涵盖对象语义、加速语义与权限语义。对象语义包括数据与逻辑对象;加速语义通过预置快SQL提升速度;权限语义则按角色、部门、场景精细管控数据访问。
以“查看上月GMV”为例,GMV属数据对象语义,可通过大模型检索;而展示方式、粒度、排序等则属逻辑对象范畴。
我们采用双层处理:除预制算子外,引入Fix SQL语句。如同伪代码表达逻辑,Fix SQL可提取算子嵌入执行引擎,大幅减少预制工作量。
语义层之外,还有语义加速引擎,专为多维度大查询场景优化。
加速策略有三:预存储与预计算,初始化高频场景;自适应加速,基于用户问答统计下沉热门指标,实现越问越快;记忆机制,定义三类企业数据分析记忆。
企业数据分析中,记忆机制至关重要。问答每字都可能影响结果,故不能随意压缩。我们定义三类记忆:角色记忆(如运营场景标签),缩小检索范围;会话记忆(跨会话空间总结),实现上下文穿越;轮次记忆(短期对话上下文),关注细粒度内容。
记忆结构设计举例:结构化记忆通过实体链接建立常见问法对应关系(如“卖了多少”对应“销售额”);非结构化记忆包括会话偏好(如用户常以饼图看销售额),通过权重召回,避免重复输入。
机制重点:记忆状态需时间衰减管理,增删改需精准;角色记忆与会话记忆融合时加权处理,再向量化聚合,避免重复识别,提升效率与准确性。
数据洞察研究是Agent的最佳落地场景。简单查询产品易被弃用,而深度研究契合“慢思考”与“10倍提效”目标。用户对报告生成时间更宽容,质量才是核心。
我们构建了数据洞察报告生成流水线,大纲与任务皆支持手动调整,灵活适配需求。
研究过程中,需权衡推理与非推理模型。简单内容用快思考小模型;复杂、千人千面的思维链场景,则用推理模型内化思考,降低COT成本。
4 Data Agent 的思考和展望
行业此前聚焦Agent在“数据到信息”段,我们则认为重心应在“数据到洞见”。业务方需基于数据总结、决策,Agent必须能提出结论与建议,方实现10倍提效。仅在前段优化,难有突破。
模型基座无需单一。Claude强于代码,GPT精于推理,Gemini擅多模态。基座模型日趋垂直,需灵活选型。每个场景都应预研分析,匹配最适模型。
产品形态勿舍本逐末。自然语言对话虽流行,但“点击”交互并未过时。Agent产品应融合对话、点击等多维交互,依场景选择最优逻辑。
企业数字化落地,贵在“大胆选择,匍匐前进”。方向要果敢评估,执行要坚定迈进。不畏挑战,直面吐槽。用户反馈是迭代飞轮的核心动力,对“吐槽”的Know-how与业务知识同等重要,驱动快速进化。
关于数势科技
数势科技成立于 2020 年,团队主要来自百度、京东等科技企业。数势科技 2021 年就开始研发标签平台和指标平台,并开发了行业首个商业化落地的数据分析智能体 SwiftAgent。公司在金融、零售、先进制造领域有深度技术和业务 know-how。
演讲嘉宾介绍
李飞,数势科技 AI 负责人。负责数势科技智能算法的开发,包括 LLM Agent,RAG,内容推荐,文本生成,知识图谱挖掘等算法技术。英国纽卡斯尔大学博士,在智能算法领域学术与工作经验丰富。在学术研究方面,拥有 10 项智能算法相关专利并发表 4 篇国际期刊,曾主导由欧洲玛丽居里计划资助的国际项目,在研究期间,共发表了 3 篇期刊文章、1 篇会议文章和 1 篇 Chapter;在工作方面,曾任职京东零售数据中台,负责人工智能技术在营销领域的相关落地,多次获得优秀员工及集团战略项目奖,曾获 HICOOL 全球创业大赛二等奖。
今日好文推荐
相关问答
什么是人工智能分析?
人工智能分析是BIGlobalConnect交易平台所嵌入AI人工智能系统所赋予的特有功能,能够对金融市场中的特定股票进行分析,提供建仓与平仓的时间点,来辅助投资...
阿里云-上云就上阿里云-触屏版
230万用户正享用阿里云提供的云服务器、云数据库、云存储、CDN、大数据等服务,7x24售后支持,故障100倍赔偿,快速备案,5天无理由退款。
智能健康分析-ZOL问答
智能健康分析扫地机器人联想联想智能扫地机器人讨论回答(20)深圳智谷联智谷联智能健康设备方案整合物联网、人工智能与医疗级传感技术,打造「采集-分析-...
智能分析之深度学习是怎样学习的?
谢邀!我不是很了解,我只能根据自己的设想是如下这样的,希望权威(比如吴恩达)来回答。以简单的红灯停绿灯行来举例:现在的程序会预先固化设定:红灯车停...
智能商业分析这个专业到底怎么样?
非常好,智能商业分析专业前景很好。国内的商业分析就业来说,初入职场的薪资待遇基本都是月薪上万。随着从业时间的增长,职业经历的丰富,可以拿到月薪3-6W,...
大数据智能分析是干什么的?
大数据智能数据分析,它是指运用统计学、模式识别、机器学习、数据抽象等数据分析工具从数据中发现知识的分析方法。智能数据分析的目的是直接或间接地提高工作...
智能电网深度解析?
智能电网(smartpowergrids),就是电网的智能化,也被称为“电网2.0”,是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技...
GIS与人工智能融合如何提升地理数据分析?-ZOL问答
MapGIS10.5推出的IGServer-S智能GIS产品,在人工智能技术方面实现了重要突破,不仅提升了系统的智能分析能力,也为城市智能化管理和决策提供了有力支撑,推动城市...
大数据AI智能能分析彩票么?
彩票这种组合本身就是高等数学里的“排列组合”中的一种,可与通过概率论来计算出每种组合的中奖概率,因此是可以通过大数据来计算出中奖概率的。但是由于彩票...
分析智能工程的基本研究内容?
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,...