针对Agent的Excel操作能力来构建一个评估体系。

  1. 请先从真实世界用户需求场景出发,对Excel操作的相关场景进行拆分,并选择其中1个子场景,给出3-5题最具代表性的Benchmark题目。
    1. WPS的客户结构 & 客户应用场景:
      1. 互联网,40%
      2. 金融,10%
        1. 盈利预测报表:
          1. 老模型:展期、调整核心假设、业务量价拆分
          2. 新模型:经营模型的搭建
        2. 研究:
          1. 对于新兴业务的研究,量价拆分,市场规模,玩家格局
        3. 个股比较+估值表:
          1. 给excel或文字描述,拉取当前市值,整理估值表
        4. 筛选个股:
          1. 按特定标准筛选个股,对接wind等数据库
          2. 除了按已有指标筛选外,支持按自然语言描述进行筛选
        5. 带有提取数据需求的问题
      3. 能源,5%
      4. 教育,10%
      5. 医疗,5%
      6. 政府,10%
    2. 对于各场景最具代表性的题目:
      1. 首先,怎样是最具代表性:
        1. 一方面是一个真实的群体,真实的查询需求的采样;另一方面,有一些没有被好好满足的需求,可能真实的查询中并不覆盖,因为效果太差,用户反而没有怎么问,这些也是值得被关注的;
        2. 怎么获取真实的查询需求:我司IT+alpha派
        3. 怎么获取用户尚未被满足的需求:找一个真实用户,观察目前花时间最多的场景,brainstorm+我写的真实案例+卖方发的excel反向抽象
      2. 盈利预测报表:
        1. 老模型:
          1. 输入:
            1. 两次模型版本之间的研报
          2. 输出:
            1. 中金的历史模型版本
          3. 模型选择:
            1. 33个一级行业,按照市值大小往下选择,手动看一下是否有经营模型拆分
        2. 新模型:
          1. 输入:上市公司调研纪要、专家纪要、公司年报
            1. 关于对应公司的调研纪要:alpha派上仅能找到公开业绩说明会,其中更多蕴含边际变化信息,对于从零搭建一个公司的经营模型不一定有效
            2. 专家纪要:
              1. alpha派:无比较及时的专家纪要,主要是卖方路演纪要
              2. 久谦:纪要不全,搜索金山办公也搜索不到
              3. 高临:纪要比较多,可以下载,但很少拆量价,更多是竞争格局和业务趋势分析,偏前沿业务,可能对于从0搭建模型也帮助有限
              4. 进门财经:资源和alpha派比较类似,主要是公司公开业绩交流会+卖方公开路演,公司一对一交流和卖方一对一交流是不包含的,同时其中主要是边际信息更新
            3. 最终梳理的输入:
              1. 公司最新一个季度的季报
              2. 公司IPO文件
              3. 进门财经最新一个季度的公开业绩交流会
          2. 输出:经营模型excel
            1. ground truth,中金下载的模型,33个一级行业各选1个公司,覆盖各类量价逻辑
      3. 研究:
        1. ground truth可以获取,但需要从我个人的工作中清洗出来,比较麻烦,且不一定具有代表性
        2. agent对cpu的量和价的影响,请拆解做出一个excel。
        3. 商业航天各个环节的量价拆分excel。
        4. 数据中心对光纤影响excel,以及对对应公司利润的影响。
        5. 中外各家云公司的收入和op margin excel。
        6. 阅读高临上所有与oai anthropic等大模型公司相关的纪要,把对应的量化数据整理出来。
        7. 短剧用户数25年达到多少,这个市场规模有多少?每个月有多少部短剧上线?
        8. 中国的企业应用软件市场有多少市场规模(ERP、CRM、造价软件、供应链管理软件、企业应用、建站小程序、IoT等)?
        9. 中国iaas、paas、saas市场规模各多大?
        10. 阿里云在iaas公有云市场的份额有多少?
        11. 内窥镜硬镜的单价如何?单价50-200万,是包含机器的吗?单镜体单价如何?这行业比如是110亿总体市场规模的话,镜体占多少,镜体更换周期如何呢?
        12. 一个医院一般会配几台内窥镜硬镜呀?
        13. 现在发电侧,中国多少亿度电参与电力交易?
      4. 个股比较+估值表:
        1. alpha派目前已有简单的对比功能,含自然语言对比、毛利率对比、估值对比,比较难追上
        2. 买方需要的估值表可以是个草稿,然后自己调一下,试一下alpha派对话能不能做到
      5. 筛选个股:
        1. 按ROE、股息率、路演卖方数量等筛选个股,更适合wind等做,需要数据库支持,groud truth文件较难获得,暂不展开
      6. 带有提取数据需求的问题:
        1. ground truth可以获取,但需要从我个人的工作中清洗出来,比较麻烦,且不一定具有代表性

        2. 2024:请结合2024.2.28和2024.10.16的这2份创业慧康的交流纪要,重新分析公司增长点、竞争力和市场分歧,阅读我上传的24年业绩预告和投资者交流纪要,分析此前对24年预期增长和实际增长之间的差异,以及投资者关心的AI产品的增长前景,重点考虑如何拆分创业慧康25年的收入增速,并获得可证伪的数据,重新拟定调研问题。

          image.png

        3. 3G网络升级为4G网络,究竟导致各个行业出现了哪些业务机会(行业划分按申万一级行业),请给出量化的数据(比如哪家公司的业务基本是由3G向4G升级驱动的,其收入和利润从多少亿提升到多少亿)?

        4. 美国2000年互联网泡沫中,大家一开始看好的公司是哪些,设想的商业模式是什么?而后被证伪是为什么,这些公司的收入和利润是怎样变化的,给出具体的量化数字?而真正跑出来的公司是哪些?

        5. 请帮我分析以下几个行业产品,客户采购时一般看哪个参数去衡量产品的性能(比如,对于红外探测器,客户会看阵列规模、像元尺寸、热响应时间、NETD、帧频、封装技术):1)机器视觉行业(代表公司:基恩士、康耐视、奥普特),2)X射线检测设备(代表公司:日联科技、YXLON、GE、zeiss、诺信等),3)消防安全报警产品,具体产品包括感温感烟报警产品、气体检测报警产品等(代表公司:青鸟消防等),4)内窥镜硬镜(代表公司:史塞克、奥林巴斯等),5)安防摄像头(代表公司:海康威视、大华股份)。

        6. 一台计算机,从历史上第一天出现,到2024-2025年的今天,其中的零部件的价值量占比发生了怎样的变化。展望当下的AI GPU服务器,在过去的几年中,一个算力集群中的各个环节的价值量占比发生了怎样的变化,在未来的1-2年中,哪些环节的价值量占比可能提高?有没有比较量化的数据。

        7. 2020-2024年全球广告市场中,线下广告和线上广告各占多少比例?谷歌2024年搜索广告收入是多少?

        8. 请列举以下几个数据的数值,给出来源:1. 2012,2013,2014,2015,2016年分平台的CTR和参与度数据。2012,2013,2014,2015,2016年 Meta移动端Ad load的年度变化。2012,2013,2014,2015,2016移动广告ROI和桌面端广告的ROI。请帮我收集这三个数据,分析并得出结论:1. 2012-2016年分平台的CTR和参与度数据(可从旧版营销报告挖潜)。移动端Ad load的年度变化(Meta财报补充信息)。第三方对移动广告ROI的研究(如eMarketer历史报告)。

  2. 其次,选取若干Agent模型或产品,在该Benchmark上进行实测评估。
    1. 实测setting:
      1. prompt准备简化版和精修版两版
    2. 模型和产品的选取:
  3. 在此基础上,请思考如何实现一定程度的自动化评估,并进行实践测试,请提供相关测试结果。
    1. 老模型修改可以按spreadsheet bench的方式校验和评估
    2. 新模型搭建,需要llm as a judge,可能需要spreadllm进行格式清洗