mer非常厉害,但是也有一个缺点,因为他的主要核心attention也就是注意力机制,
这种算法的时间复杂度复杂度是o(n^2),所以需要的计算量非常大,这也是为什么现在市面上的大模型训练需要的显卡都是几千几万张。
大模型和小模型之间除了算力消耗和成本上有着巨大差异,在整体架构上也有着明显的差异。
一个小模型可能只需要几百行代码就能完整的写出来,然后开始运行。
而一个真正意义上的大模型想要正常运行,除了其核心代码之外还需要各种的配套功能的代码,这些加起来几万行都算是少的了。
他在这方面的,不管是经验还是知识都很欠缺,所以第一步就是——看文献,至少要熟知多模态大模型领域所有的先进技术之后,他才会开始计划怎么将现有参数量不大的模型进行升级。
其实这一步应该是在谈项目之前就做的,只不过周昀那个模型的性能实在太优秀了,
再加上他在和汇金的人谈判的时候表现得太过淡定,这让别人以为他在这方面有了一定的积累,这才直接敲定了项目。
不过这都无伤大雅,凭他现在的英语水平和理解能力一天刷个十几篇论文不是问题,最多一个月,他就能把大模型领域的技术摸得差不多。
时间来到了七月底,距离周昀和汇金的谈判已经过去了两周时间。
周一,周昀照常来到实验室。
正当他打开电脑准备刷一刷今日份的论文时,沈瑞抱着个笔记本电脑走到他身边。
“周昀师弟,有件事我想找你帮个忙。”他有些不好意思地笑了笑。
“你说。”
“是这样,我之前不是把论文初稿给邓老师看了吗?改了几次他都不满意,说是创新点没有,模型性能没有提升,工作做的再多也没用,
本网站为网友提供小说上传储存空间平台,为网友提供在线阅读交流、txt下载,平台上的所有文学作品均来源于网友的上传
用户上传的文学作品均由网站程序自动分割展现,无人工干预,本站自身不编辑或修改网友上传的内容(请上传有合法版权的作品)
如发现本站有侵犯权利人版权内容的,请向本站投诉,一经核实,本站将立即删除相关作品并对上传人ID账号作封号处理