发指令,往印象。 很多人对语言智能的认知还停留在金山词霸阶段 —— 有个多语种的电子词典可以做双语种互相翻译。可是如果有这么个神器,可以接受我用母语输入,并能够用我看得懂的语言智能地做出回答,可真是太神奇了。 于是很多人不禁要问,既然大语言模型这么神奇,是不是这世界上的低资源语言也有救了? 语言学鼻祖毕生致力于发展
一门世界通用语法
有一段非常出名的比喻:如果外星人来到地球,他们能够听懂读懂地球上的所有语言。因为在他们看来,地球上每一种语言都遵循同样的语法,只不过大家说的是不同的“方言”而已。 如果能在多种语言之间切换自如,那它是否破解了这世界通用语法的奥秘? 低资源语言在大语言模型 中的代表性仍然不足尽管大语言模型具有变革潜力,但现实仍然是大语言模型主要迎合英语和少数其他高资源语言。 对-3等模型使用的训练语料库进行
仔细检查后发现,各语种存在明显 法国电子邮件列表 的不平衡: 英语占主导地位:-3的训练语料绝大多数是英语,占数据的9.6% 。(基于 -)等后续模型延续了这一趋势。 有限代表的语言(分析仅限于-3语料库): 只有两种语言占-3语料库的%以上,即法语 () 和德语 另外4种语言落在.%到%的范围内,包括西班牙语、意大利语、葡萄牙语、荷兰语、俄语、罗马尼亚语、波兰语、芬兰语、丹麦语、瑞典语、日语、挪威语。 值得注意的是,像中文和印地语这样的语言,总共
有超过亿人使用,甚至没有达到语料库.% 的 数据盗窃:什么是网络钓鱼以及如何预防? 门槛。 训练数据集中度:-3训练语料库中排名前6位的语言有明显的头部效应:加起来一共占99.4%。 单词覆盖范围有限:-3训练语料库中只有65种语言的单词数超过万,其中第65种语言是高棉语。虽然在柬埔寨有7万人使用高棉语,但它在GPT-3的训练语料库中只有区区万个词英语和精选高资源语言的偏向并非
母公司)有意为之;因为语料
大部分来自互联网,而互联网反映的是一个国 CZ 领先 家和语种的富裕、开放、和活跃程度。 大语言模型在很大程度上忽略了世界上7, 种现存语言中的大多数。例如,以下使用人数众多的语言贡献了不到 % 的互联网文本内容,因此很难收集足够的数据来训练一个专门针对这门语言的大语言模型: .印地语:6. 亿使用者 .阿拉伯语:.74亿使用者 3.孟加拉语:.73亿使用者 4.乌尔都语:3.亿使用者 语言使用者和可用文本数据之间
的差异导致了语言多样性之间的不平衡。这个问题的源头更多的是一个国家的发展情况和投资力度,我们会在下篇博文中详述。 对于旨在支持更广泛语
言的大语言模型来说,这也是一个根本性的挑战:如果一种语言在网络上只有少量文本,那就没有适合这门语言的大语言模型。如果一种语言在网络有大量文本,也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。 于是我根据的支持力度对世界语言进行了分类: -3.5 对高资源和低资源语种的支持情况 3 英语是大语言模型 最有效的“编程语言”大语言模型有一个输入和输出的限制,以数目表示。如果数太少,比如只有区区个,那能做的事情就很有限。 这有点像早期的个人电脑,只有的内存,跑不了“大程序”。而如今有一些智能手机都有了的内存,是以前的倍。至于一个是多少个