12月19日,智源酌量院发布国表里100余个,开源和生意闭源的大模子详尽及专项评测成果。“大讲话模子评测才智榜单”中,豆包通用模子pro(Doubao-pro-32k-preview),在主不雅评测中排行第一。
智源酌量院 FlagEval 大讲话模子评测才智榜单-主不雅评测
“多模态模子评测榜单”中,豆包·视觉流露模子(Doubao-Pro-Vision-32k-241028)。在视觉讲话模子中排行第二,仅次于GPT-4o,是得分最高的国产大模子。
智源酌量院 FlagEval 多模态模子评测榜单-视觉讲话模子
“FlagEval大模子角斗场榜单”中,豆包通用模子pro(Doubao-pro-32k-240828)。
在大讲话模子榜单中位居第一梯队,评分排行第二,仅次于OpenAI的o1-mini,是得分最高的国产大模子。
智源酌量院 FlagEval 大模子角斗场榜单-大讲话模子榜单
据智源酌量院先容,大模子评测平台FlagEval当今已隐讳大家800多个开闭源模子,在评测步调与器具上集会了寰宇10余家高校和机构互助共建。这次公布的榜单中,大讲话模子主不雅评测重心历练的是模子的汉文才智,多模态模子评测榜单视觉讲话模子主要历练的是模子在图文流露、长尾视觉常识、翰墨识别以及复杂图文数据分析才智;FlagEval大模子角斗场则是向用户怒放的模子对战评测劳动,反应了用户对模子的偏好。
大使用量才能打磨出更好的模子。刚刚扫尾的2024火山引擎冬季FORCE原能源大会公布了豆包大模子最新发达——豆包大模子12月日均tokens使用量进步4万亿,较5月发布技巧增前途步33倍,在不同运用场景中调用量快速增长。
使用量和运用场景的普及,也让豆包大模子迎来了全新的升级。其中在“大讲话模子评测才智榜单”的主不雅评测中排行第一的豆包通用模子pro完成新版块迭代,详尽惩办才智较5月发布时普及了32%,在推理上普及13%,在领导死守上普及9%,在代码上普及58%,在数学上普及43%,在专科常识鸿沟才智普及54%。
在“多模态模子评测榜单”的视觉讲话模子中,得分国内最高的豆包·视觉流露模子也在FORCE原能源大会上负责对外发布。豆包·视觉流露模子不错流露用户所输入的文本和图片相干的信息,并给出准确的回复。通过更强的本色识别才智、更强的流露和推理才智、更详尽的视觉刻画才智,豆包·视觉流露模子极地面拓宽了大模子场景规模,基于对着实世界的信息惩办,不错更好的扶植东说念主类完成复杂的任务。
豆包·视觉流露模子在教悔、旅游、电商等场景有着特地平日的运用。为了更好地匡助企业开发大模子的翻新运用场景,豆包·视觉流露模子的价钱为每千tokens 0.003元,比行业平均价钱镌汰85%,至极于一块钱不错惩办284张720P图片,让企业和成立者用好视觉流露模子,找到更多翻新场景。
从才智升级到模态丰富,火山引擎将执续拓展豆包大模子的才智规模及运用场景,加快激动AI大模子运用的普及与落地,为更多企业智能化升级提供有劲守旧。