全面开源的雅意2.0来了!HuggingFace和Github可下载
雅意全系列模型、代码、数据全面开源开放
雅意2.0开源目前最大规模的高质量中文预训练数据集和信息收取指令数据集:
同时,雅意2.0全系列模型,包括YAYI 2 的预训练模型、YAYI 2 Chat对话模型、YAYI UIE信息抽取大模型,所有代码、模型都已通过GitHub、HuggingFace平台向每一位开发者开放,均可免费申请商用,欢迎大家体验!
Github:https://github.com/wenge-research
Huggingface:https://huggingface.co/wenge-research
雅意2.0能力全面增强
1
模型训练
● 模型参数大幅提升
● Token压缩率国内领先,中英双语国内领先、多语种国内No.1
● 从头预训练,数据多层过滤、分布广泛:240TB多源基础数据,1000余道数据清洗工序,2.65万亿Tokens高质量训练数据。
2
特色技能
● 多轮对话角色扮演,可扮演特定人物、执行专业任务,支持自定义角色及表达风格,实现超长轮历史对话关联;
● 最长128k输入更长上下文窗口,支持离线文档、数据库、API接入;
● 1000W+图文数据对齐,多模态能力提升(图生文:支持内容理解、审核、抽取等30+能力;文生图:文本描述提升文生图细节);
● 内容安全风控,人类价值观对齐、流式内容实时审核、诱导性拒识;
● 10+智能插件调用,可根据用户输入自动化选择插件,支持自定义插件库;支持搜索引擎、PDF解析、计算器、天气、AI绘画、数字人等插件;精准解析用户对话意图,降低生成幻觉;
● 10+语种支持,多语言能力提升
● 100种+复杂信息抽取信息抽取能力提升
3
专业技能
雅意2.0深度增强安全、金融、媒体、舆情等领域的专业能力,并覆盖法律、中医等多业务场景,着力构建雅意大模型行业生态。
同时,推出雅意2.0通用产品体系:
● YAYI-Chat:大模型MaaS服务平台
● YAYI-Bot:专家级行业助手,雅意移动端应用
● YAYI UIE:复杂信息抽取工具箱
● YAYI File:文档智能问答,企业内部非结构数据智能处理
4
测评指标
雅意2.0多项测评业内领先
● Token压缩率中英双语国内领先、多语种国内第一;
● 中文知识问答能力业界领先,获得AGIEval、CMMLU测评第一,MMLU测评第二,C-Eval、HumanEval测评第五
● 零样本中文信息抽取能力多项全球SOTA(最佳性能表现):事件抽取任务,SOTA;关系抽取,SOTA;实体抽取,中文SOTA,英文全面对标ChatGPT