语言有足下去。有些低资源语种本来使用者就不多又缺乏足够的研究使得它们也逐渐变成了“濒危语种”。 以htT为代表的大
语言模型的出现仿佛给世界语
训练专门的机器翻译系统htT也能在不同语种之间自由翻译和转换。用htT做翻译或者使用其他语言去令往往给非英语说话人留下深刻的第一印象。 很多人对语言智能的认知还停留在
金山词霸阶段 —— 有个多语种的电子词典可以做双语 WhatsApp 号码数据 种互相翻译。可是如果有这么个htT神器可以接受我用母语输入并能够用我看得懂的语言智能地做出回答可真是太神奇了。 于是很多人不禁要问既然大语言模型这么神奇是不是这世界上的低
资源语言也有救了? 语言学鼻祖m 致力于发展一门世界通用语法m。他有一段非常出名的比喻如果外星人来到地球他们能够听懂读懂地球上的所有语言。因为在他们看来地球上每一种语言都遵循同样的语法只不过大家说的是不同的“方言”而已。 如果htT能在多种语言之间切换自如那它是否破解了这世界通用语法的奥秘? 低资源语言在大语言模型 中的代表性仍然不足尽管大语言模型具有变革潜力但现实仍然是大语言模型主要迎合英语和少数
其他高资源语言 等模
型使用的训练语料库进行仔细检查后 如果我能看地图我明白了今天当我 发现各语种存在明显的不平衡 英语占主导地位T-的训练语料绝大多数是英语占数据的. 。htT基于-.等后续模型延续了这一趋势。 有限代表的语言分析仅限于T-语料库 只有两种语言占T
-语料库的以上即法语 . 和德语 .。 另外种语言落在.到的范围内包括西班牙语意大利语葡萄牙语荷兰语俄语罗马尼亚语波兰语芬兰语丹麦语瑞典语日语挪威语。 值得注意的是像中文和印地语这样的语言总共有超过亿人使用甚至没有达到语料库. 的门槛。
训练数据集中度T-训练语料库中排名前位 AO 列表 的语言有明显的头部效应加起来一共占.。 单词覆盖范围有限T-训练语料库中只有种语言的单词数超过万其中第种语言是高棉语。虽然在柬埔寨有万人使用高棉语但它在T-的训练语料库中只有区区万个词。 ht
T对英语和精选高资源语言的偏向并非htT的母公司有意为之;因为语料大部分来自互联网而互联网反映的是一个国家和语种的富裕开放和活跃程度。 大语言模型在很大程度上忽略了世界上, 种现存语言中的大多数。例如以下使用人数众多的语言贡献了不到 % 的互联网文本内容因此很难收集足够的数据来训练一个专门针对这门语言的大语言模型 .印地语. 亿使用者 .阿拉伯语.亿使用者 .孟加拉语.亿使用者 .乌尔都语.亿使用者 语言使用者和可用文本数据之间的差异导致了语言多样性