摘要据媒体报道,中国台湾新创公司APMIC与语言模型研究社群Twinkle AI达成合作,共同推出了适用于手机端的3B参数繁体中文推理模型,同时还发布了24B和70B参数的更大模型。这些模型通过开源模型结合繁体中文语料,并利用微调和蒸
据媒体报道,中国台湾新创公司APMIC与语言模型研究社群Twinkle AI达成合作,共同推出了适用于手机端的3B参数繁体中文推理模型,同时还发布了24B和70B参数的更大模型。这些模型通过开源模型结合繁体中文语料,并利用微调和蒸馏技术开发而成。
APMIC成立于2017年,专注于模型微调和语言模型平台服务,是NVIDIA的独立软件供应商。Twinkle AI则是2024年成立的研究社群,主要研究繁体中文语言模型,并已开源评测架构Twinkle Eval。
此次合作的模型基于Meta或Mistral AI的基础模型,使用了约100B的繁体中文语料,涵盖新闻、学术论文、法律条文和社会讨论等多领域文本。团队还借助NVIDIA NeMo和Data Curator工具,以及DeepSeek R1 1776模型作为蒸馏技术的基底,完成了通用模型向推理模型的改造。整个开发过程动用了超过200片H100进行预训练与微调。
APMIC共同创始人兼CEO吴柏翰表示,3B参数的轻量化模型适合手机端应用,预计可在最新款iPhone上运行,主要取决于设备的存储容量。24B参数模型在计算资源与推理精度之间实现了平衡,适合企业和学术研究;而70B参数模型则进一步提升了推理和语言理解能力,适用于对性能要求更高的专业场景。
此外,双方还开源了评测架构Twinkle Eval,整合了包括台湾通识与专业能力混合题库(TMMLU+)、台湾法律语料测试集(tw-legal-benchmark-v1)和多任务基准测试集(MMLU)等数据集。团队指出,传统评测工具多采用逐题推论方式,但随着语言模型向“测试时运算拓展”发展,逐题推论限制了评测效率。Twinkle Eval通过平行验测和工具整合,提升了评测效能,方便企业用户进行自动化测试。
吴柏翰在近期的NVIDIA GTC大会中观察到,AI产业分工日益细化,专注于特定领域的深度发展比追求通用领域的广泛覆盖更具竞争力。他强调,对于希望进军国际市场的中国台湾企业,加强软硬件结合与专业合作是提升市场差异化的关键。
本文链接:http://www.28at.com/showinfo-27-141885-0.html台湾新创APMIC与Twinkle AI合作推出繁体中文推理模型
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。