技术在重塑人与人的连接方式,这件事本身没有悬念,真正的问题是,当一项新技术开始普及,谁能被服务得更周到,谁又被落下。
把这个问题放在亚洲看,答案会更具体:一个只会说泰语或缅甸语的人,能不能顺畅使用智能助手,或者被搜索引擎准确理解。
这意味着数千万说方言的人,很难获得同等质量的服务。
亚洲聚集了全球六成以上的人口,也是互联网最活跃的地区,但活跃不代表平等。
泰语、缅甸语、马拉地语这些有数千万人日常使用的语言,在人工智能的训练数据集里仍然处于边缘。原因是过去几十年的数字化进程,总是以英语世界为主导,从最早的操作系统、编程语言,到后来的搜索算法、语音交互,底层逻辑大多照着英语的习惯生长。这导致模型训练需要的海量文本,标准英语的数据相对充足,轮到其他语言,能找到的公开语料就少得多了。
拿数据量来说,英语有数以亿计的文本可以用于模型训练,但高棉语或老挝语的语料库,规模就要小很多。
数据不足,模型的学习效果自然受限。即便像印地语这样被覆盖到的大语种,细分到博杰普尔语这类方言时,模型能处理的内容也有限。
更麻烦的是,很多亚洲语言的用法,跟英语的逻辑不太一样。
比如印度人日常说话经常是混着来的,印地语里夹英语,叫Hinglish,这种混搭本地人听着亲切,语音转文字的工具却不容易识别。输入法也是,马拉地语或僧伽罗语的联想输入,选择范围远没有英语丰富。
这种使用体验上的差距,直接影响了人们用母语上网的意愿。
这种缺失带来的后果是一连串的。
互联网上绝大部分内容仍是英文,亚洲能流利使用英语的人口只占一成左右。剩下九成的人,如果没法用自己的语言获取信息、使用服务,参与数字经济的机会就会受限。
具体到商业上,东南亚的本地商家建个越南语或泰语的网站,想在搜索平台上获得好的曝光并不容易,搜索引擎对多语言的索引能力还在完善中,内容推广的效果会有差异。AI系统的表现也会受影响,缺乏本地数据训练的模型,有时难以准确理解当地人的情绪和语调,翻译出来的内容显得生硬。
不过,这个问题最近几年开始得到更多关注。
- 谷歌启动了一个千种语言倡议,目标是做一个能覆盖全球多种语言的模型,其中也包括资源相对较少的小语种
- Meta那边也出现一个项目叫不落下任何语言,训练系统实现两百种语言的互译,南亚和东南亚的语言涵盖了不少
- 印度的AI4Bharat走开源路线,专门为22种印度官方语言建数据集和工具,让本地的创业公司也能用上
为亚洲语言争取技术上的位置,不是在搞特殊化,而是在还原本该有的权利,让一个人能用自己的母语,不用妥协、不用绕路,顺畅地去生活、去创造、去跟这个世界交流。
关于新宇智慧:
香港六和全年资料大全是一家锐意创新的语言技术解决方案提供商,聚焦于ICT、知识产权、生命科学、游戏和金融财经等领域,涵盖语言服务、大数据服务和AI技术应用三大业务模块。拥有专职员工 300 余名,在全球超过 40 个国家,拥有 10000 名以上母语翻译专家,可以支持超过 200 种语言。
新宇智慧总部在深圳,在北京、上海、合肥、成都、西安、香港、英国剑桥等地设有分支机构。新宇智慧已为众多世界500强以及国内知名企业提供一站式多语言解决方案,并达成长期稳定的合作关系。
(文章转载于GALA- Inclusivity in Tech for Asian Languages,由新宇智慧编译)

