返回

全面开源的雅意2.0来了!HuggingFace和Github可下载

来源: 发布时间:2023/12/25 浏览量:

12月15日,中科闻歌重磅发布雅意大模型2.0。作为为数不多从头进行预训练的国产原生大模型,雅意2.0拥有数据、模型、应用全自主知识产权,可面向行业应用场景自主训练和微调。雅意2.0所有的代码、模型都已通过GitHub、Huggingface平台开放,可免费申请商用。


雅意全系列模型、代码、数据全面开源开放


雅意2.0开源目前最大规模的高质量中文预训练数据集信息收取指令数据集

● 雅意2.0高质量预训练数据(500GB,约1000亿Tokens文本数据)
● YAYI-UIE信息抽取大模型的信息抽取指令数据集


同时,雅意2.0全系列模型,包括YAYI 2 的预训练模型、YAYI 2 Chat对话模型、YAYI UIE信息抽取大模型,所有代码、模型都已通过GitHub、HuggingFace平台向每一位开发者开放,均可免费申请商用,欢迎大家体验!  


Github:https://github.com/wenge-research

Huggingface:https://huggingface.co/wenge-research



雅意2.0能力全面增强

1

模型训练

● 模型参数大幅提升

 Token压缩率国内领先,中英双语国内领先、多语种国内No.1

● 从头预训练,数据多层过滤、分布广泛:240TB多源基础数据,1000余道数据清洗工序,2.65万亿Tokens高质量训练数据。


2

特色技能

 多轮对话角色扮演,可扮演特定人物、执行专业任务,支持自定义角色及表达风格,实现超长轮历史对话关联;

● 最长128k输入更长上下文窗口,支持离线文档、数据库、API接入;

 1000W+图文数据对齐,多模态能力提升图生文:支持内容理解、审核、抽取等30+能力;文生图:文本描述提升文生图细节);

 内容安全风控,人类价值观对齐、流式内容实时审核、诱导性拒识;

 10+智能插件调用,可根据用户输入自动化选择插件,支持自定义插件库;支持搜索引擎、PDF解析、计算器、天气、AI绘画、数字人等插件;精准解析用户对话意图,降低生成幻觉;

 10+语种支持,多语言能力提升

 100种+复杂信息抽取信息抽取能力提升


3

专业技能

雅意2.0深度增强安全、金融、媒体、舆情等领域的专业能力,并覆盖法律、中医等多业务场景,着力构建雅意大模型行业生态。


同时,推出雅意2.0通用产品体系

 YAYI-Chat:大模型MaaS服务平台

 YAYI-Bot:专家级行业助手,雅意移动端应用

 YAYI UIE:复杂信息抽取工具箱

 YAYI File:文档智能问答,企业内部非结构数据智能处理


4

测评指标

雅意2.0多项测评业内领先

 Token压缩率中英双语国内领先、多语种国内第一;

 中文知识问答能力业界领先,获得AGIEval、CMMLU测评第一,MMLU测评第二,C-Eval、HumanEval测评第五

 零样本中文信息抽取能力多项全球SOTA(最佳性能表现):事件抽取任务,SOTA;关系抽取,SOTA;实体抽取,中文SOTA,英文全面对标ChatGPT


IPO
系列

IPO产品系列

企业
出海

企业出海系列产品

关注中科智库公众号
即享最新权威资讯洞察

下载智看APP
开启舆情咨询
商业洞察专业服务

下载智看APP
开启舆情咨询
商业洞察专业服务

在线留言

请留下您的信息,我们会第一时间与您联系

所有提交信息,我们将严格为您保密

您已阅读并同意用户授权协议