谷歌将Sepedi和Xitsonga添加到使用一千种语言的数据翻译中
这些语言是添加到谷歌翻译的另外 24 种语言中的两种。
机器学习是人工智能 (AI) 的一个子集,其中统计模型通过查看示例来学习如何执行任务,而不是被编程以某种方式完成任务。
在过去的十年中,机器学习的进步导致了人工智能的性能和媒体报道的爆炸式增长。
谷歌翻译在 2016 年转向机器学习技术,为多种语言的翻译提供了显着改进。
然而,这些技术需要大量数据才能有效,并且对于传统上意味着“平行文本”的翻译 - 具有完整翻译的数字文本。这对没有大量翻译作品或根本没有太多数字化文本(例如我们的某些官方语言)的语言造成了明显的限制。
对于许多语言,只有相对少量的单语可用。
在翻译技术向前迈进了一大步,谷歌开发了一些工具,可以仅使用单语文本进行有效翻译——这一过程称为零样本机器翻译。
机器学习的优势在于在大量训练数据中找到统计关系,这些关系可以推广到新数据。
谷歌没有使用一种或两种语言的数据来训练模型,而是利用了它收集的来自 1000 多种语言的文本数据的庞大数据集。通过这种方式,模型不仅可以通过查看单语文本来了解特定语言的一些内容,而且还可以学习使用一般人类语言的共性来生成翻译。
需要明确的是,这些系统并不“理解”语言,但非常擅长提供它所学的最有可能是正确的翻译。
咨询了当地语言专家,以评估翻译并帮助开发用于收集和清理数据的新工具。最终,24 种语言的翻译被认为是有意义和有用的,足以添加到 Google 翻译服务中。
其中包括 Sepedi 和 Xitsonga,这使谷歌翻译支持的南非官方语言数量达到七种。塞索托语、南非荷兰语、isiXhosa、isiZulu(当然还有英语)的翻译已经可用。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
- 标签:
- 编辑:王虹
- 相关文章
TAGS标签更多>>
网站热点更多>>
热网推荐更多>>