模型3……”
杜长庚脸上闪过一丝忧色:“到了第5轮,模型3的过拟合就已经超过了经过十轮训练的模型1,而到了第九轮,整个模型已经濒临崩溃,几乎已经无法输出有意义的数据。”
“这个结果让我们很惊讶,于是用不同模型生成的数据来训练一个新的3B子模型,命名为模型4,最终训练后的性能与模型1非常类似,并没有什么改善。”
“在最初,我们认为是数据质量的问题,橘子大模型图片类数据中可能存在一定的失真,因此又采用文字进行了重复训练。”
“橘子大模型生成的文字数据错误率远比模型2使用的原始数据错误率更低,但最终采用橘子大模型生成的文字数据进行训练的模型1,仍旧出现了性能下降,多轮训练后的过拟合现象比模型2高出近五倍。”
“而在这种情况下,模型3同样在八到九轮之后,也出现了模型崩溃。”
“也就是说,无论AI生成的数据质量高低,只要采用AI生成的数据训练大模型,就会造成大模型性能下降,这……这简直不可思议!”
“简直就像……”
“近亲繁殖?”陆嘉言好奇的接了一句。
“对!近亲繁殖!没错!”杜长庚一拍巴掌,惊讶的看了一眼陆嘉言,没想到这个小老板娘明明是个外行,理解力还真不错。
方豫摸着下巴若有所思。
对这个结果,他自己早就有所猜测,否则也不会提出做对比实验的办法。
杨子龙和杜长庚所发现的问题,粗看上去确实有点诡异,相同的数据,被AI处理过一遍,再用来训练另一个AI,效果居然比不上质量更差的人工清洗的数据。
而再用这个训练后的AI生成的数据继续训练AI,无论是训练哪个AI,又会造成性能进一步下降。
这个问题看上去诡异,但实际上,只要稍稍思考一下也就能明白,应该还是数据多样性和复杂性不断被AI简化所造成的问题。
不用说橘子大模型,即使是柚子,生成的数据也不可能是百分之百完全正确的,虽然这些错误可能比人工数据要少,但错误的方式却缺乏多样性和复杂性。
说白了,就是AI聪明的千篇一律,但人类却愚蠢的千奇百怪。
但在种族传承的角度上来说,愚蠢的千奇百怪的人类,却比自己创造出比人类更聪明的AI具备更强的种族传承能力。
窝草?这么一想,孟广康那种傻x,对人类
本章未完,请点击下一页继续阅读!