微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练,其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。
微软表示 phi-3-mini 模型可以部署在手机等设备上,在 27 亿参数的 Phi-2 模型上,进一步整合了严格过滤的网络数据和合成数据。
微软也坦言 phi-3-mini 模型虽然通过优质数据在语言理解和推理能力上媲美更大参数的 AI 模型,但在 TriviaQA 等某些任务上依然受到模型规模的限制。
微软还表示 phi-3-small 和 phi-3-medium 两个模型在 MMLU 上的得分分别为 75.3 和 78.2。
附上参考
相关教程
2023-12-07
2023-05-07
2023-07-19
2023-05-30
2023-06-08
2023-03-29
2023-06-14
2023-05-29
2023-05-29
2023-05-29
2024-11-18
2024-11-18
2024-11-16
2024-11-16
2024-11-15
2024-11-14