1 篇博文含有标签「模型评测」

如何复现评测结果

2023年9月11日 · 4 分钟阅读

Starwhale

对Starwhale的开源大语言模型评测报告的评测结果或其他人的评测结果存疑，应该如何复现和对比评测结果？下文将为大家逐一讲解说明

基本流程：登录账号 → 创建项目 → 运行评测 → 对比结果

需要登录Starwhale平台，点击跳转登录入口。如您尚未注册，可点击注册入口进行注册。

成功登录后进入项目列表页，点击右上角的创建项目按钮，输入项目名称,点击提交按钮即可新建一个项目。

进入评测列表页，点击右上角的创建评测按钮，并选择相应参数。

例如想复现baichuan2-13b使用cmmlu数据集评测的结果，可参考以下内容进行操作：

点击提交即可运行评测。评测运行时，可在评测详情页的任务TAB页点击 查看日志 了解评测运行情况；当评测状态为“成功”时，可在列表页和详情页查看评测结果。

进入报告列表页，点击右上角的创建报告按钮。

报告提供富文本编辑能力，这里主要介绍如何将自己的评测结果和 Starwhale 或者其他的评测结果进行对比。

输入报告标题、描述；
输入 / ，选择 Panel 选项；
点击 添加评测 按钮，选择评测所属的项目，如“llm-leaderboard”，然后勾选想要添加的评测，点击添加可将评测加入评测列表。支持跨项目添加评测，您可以添加多个您想对比的评测；
将想要进行对比的评测添加完成后：可点击 列管理 设置图标设置评测列表展示的字段及字段展示顺序；鼠标hover评测列表字段，可固定该列、或者按照升序降序进行排序；
可点击 添加图表 按钮：选择图表类型，如 Bar Chart；添加 Metrics，如 accuracy相关指标（支持指标模糊搜索）；输入图表标题（非必填），点击提交即可将数据以条形图的方式展示，以便更直观得分析；
点击 发布到项目 按钮发布报告；
如想分享给其他人，进入 报告列表页 ，打开分享开关，获得报告链接的人即可浏览报告。

reproduce and compare evals

以上就是关于如何使用 Starwhale Cloud 复现和对比评测结果的说明，如果您在使用过程中有任何问题欢迎私信留言。您也可以通过Starwhale官网了解更多信息，感谢您的关注和支持。