基于词向量空间模型的机器翻译质量评价分析——以石油术语有道翻译为例

来源：互联网
|
2022-07-08
|
0 条评论
|
T小字　 T大字

　　陕西省2021年外语学科专项课题项目（2021ND0624）；西安市2021年社会科学基金重点项目（WL78）。

　　文章从问题意识视角出发，以石油术语为基础，引入词向量空间模型的方法展开三个相关实验对机器译文和人工译文进行对比研究，探索机器翻译结果在空间模型中的演绎和呈现。实验结果显示机器翻译对于石油术语的语言翻译准度能达到0.403。文章尝试结合计算机技术、语言学和翻译学等不同领域量化论证两种翻译结果在语义层面的接近和靠拢程度，以期探索评价分析机器翻译系统输出结果质量的新途径。

　　随着计算机科学技术、语言学、逻辑学和信息学等相关学科的一体化发展,机器翻译研究无论在理论层面还是工程实践层面都已经积累了丰富的经验[1],机器翻译方法完成了从基于规则的翻译方法到基于统计的翻译方法再到神经网络机器翻译方法的转变[2]。作为国内较为流行的在线机器翻译平台,有道翻译为我们带来极大便利。但有道翻译作为机器翻译的典型代表能否准确完善地处理垂直学科领域科技语言翻译任务以及机器翻译质量评价等问题仍值得深入研究。但是,已有的机器翻译结果质量分析大多是横向对比,鲜有研究对一种机器翻译软件进行纵向的深入探究分析。本文从问题意识角度出发,以石油术语为语言分析基础,借助词向量空间模型的方法开展术语语义范围界定、翻译结果空间模型追踪和文本相似度对比实验与结果分析,依照从局部到整体的思路设计三个分实验,着重关注机器翻译系统对特定学科语言在语义层面的处理和翻译能力。

　　机器翻译是利用计算机实现从一种自然语言转换为另一种或多种自然语言文本的过程[2]。它涉及语言学、计算机科学、数学等多个学科,是一门交叉学科。目前对机器翻译结果的分析研究主要涉及译文质量评价。译文质量评价的途径有很多种,最流行的有“打分法”和“统计法”等方法[3],有不少学者使用类似方法对不同在线翻译平台译文进行质量评价。其中,罗季美[4]利用统计分析法在汽车技术文献翻译方面对人工译文和机器译文进行了细致对比,将机器译文错误细化分类。杨玉婉[5]以文本《潜艇水动力学》为基础,利用Google和腾讯翻译对文本进行英汉和汉英翻译后评价译文质量。蔡欣洁和文炳[6]以外宣文本汉英翻译为例测试了四种不同的在线翻译平台,发现了翻译结果的一些共性问题,并根据译文质量对四种在线翻译平台的可接受度进行排序。也有学者利用量化评测的方法对机器译文进行评测。Almahasees[7]利用BLEU自动测评指标对Google和Bing机器翻译结果进行译文质量评测。Benková等[8]结合人工测评和BLEU自动测评等指标对Google和European Commission’s MT tool基于两种机器翻译方法——统计机器翻译(SMT)和神经网络机器翻译(NMT)——进行质量评测,结果显示在新闻文本英语对斯洛伐克语的翻译表现上NMT性能较为突出。

　　上述机器翻译结果评价分析大多是不同翻译软件的横向对比,即以一种文本作为输入得到不同版本的译文,在不同版本译文之间横向对比正误率和错误类型。这样的研究方法虽然能快速高效地分析出不同版本译文之间的异同,但也存在局限,如参照标准相对模糊、未能量化机器翻译评价过程等。因此,本研究尝试结合计算机技术、语言学和翻译学为一体,提出一种新的纵向机器翻译结果质量评价方法,探索机器翻译质量评价新的途径。

　　本实验采取定量分析和定性分析相结合的研究方法。首先选取一定数量石油术语,以全国科学技术名词审定委员会公布的《科学技术名词·工程技术卷·石油名词》[9]中的翻译作为标准翻译,以有道翻译结果作为对照翻译。然后大量收集石油相关领域的语料,语料清洗后利用Word2vec进行词向量模型训练并保存。然后,将上述标准翻译和对照翻译分别嵌入到向量空间模型中,借助向量空间模型描绘不同单词的意义,分别开展术语语义范围界定、翻译结果空间模型追踪和文本相似度对比实验,量化探究有道翻译对原始信息的保留程度。

　　从《科学技术名词·工程技术卷·石油名词》和《石油工业概论》[10]中提取400条常见英语石油类术语分类归纳并转换为txt格式。利用有道翻译软件收集对比样本,将有道英汉翻译结果分类归纳为txt格式,进行数据清洗和加工。收集石油相关领域语料建模并保存,借助Python等软件进行数据导入和处理,并且进行结果描述和分类研究。

　　首先找到一些国内石油领域的caj格式的论文及相关领域的pdf格式的书籍,批量地将caj和pdf格式语料转化为txt文件,成功转化的文件有7103个,获取字符2 819 107个。因为原始文本是caj和pdf特殊格式,在语料转化过程中会有空格、标点符号、断句、连词的问题出现,所以删除过滤所有的空格、标点等无效字符,得到1 814 455个有效字符。借助Python工具包对所得中文语料进行分词和去停用处理后获取石油领域840 000个有效分词,将有效分词转为txt文件并保存。

　　使用Word2vec对整个语料集进行了预训练,分别训练了50维、100维和150维的词向量。在三个模型的训练中维度size分别为50、100和150,sg等于1,窗口window选择默认值5,随机采样的配置阈值sample为1e-3,迭代次数iter为2。为了让收集的罕见词在最大程度上得到预训练,min_count设置为3。语料训练得到三个不同维度的模型,分别为word2vec_50.model、word2vec_100.model和word2vec_150.model,最终比较实验结果和权衡计算速度,选取了100维的向量作为全局向量空间模型的嵌入。

　　词向量是用来表示词语的向量,也被认为是词的特征向量,把词语映射为实数域值的过程叫作词嵌入。向量空间模型是一种广泛应用于信息检索的模型,具有利用空间相似性来逼近语义相似性的优点[11]。度量语义相似性的方法实际上被映射为向量相似性的度量[12],也就是对于需要计算语义相似性的两个词可以转化为向量空间中的数值形式以便于计算和整理。语义范围界定实验加载上述利用石油领域单语语料训练的向量集合word2vec_100进行词嵌入作为背景向量,再将有道翻译结果和标准翻译分别编码转化为输入向量,使这些向量能较好地表达和计算不同词之间的相似和类比关系。在实验预处理方面我们对文档做一定的降维处理以提高模型准确度。

　　选取若干个常用石油术语的标准翻译编码转换为向量数值形式输入,按照其相似度的数值降序提取语义范围内意义最为接近的的词语,通过判断提取的词语是否覆盖机器翻译结果来测量两种翻译结果语义层面的叠加程度,界定两种翻译结果的语义范围。近义词提取对应的距离数值在[0, 1]区间内,越接近于1,代表两个词语越相近,语义相关性越强;反之,代表两个词语语义距离越远。在此,选取典型的石油术语整理列举如表1:

　　借助预训练模型word2vec_100提取部分石油术语的近义词和相似度,通过样本对比分析,发现部分石油术语的有道翻译结果偏离甚至超出其相似度范围,这说明了有道翻译结果与标准翻译的语义叠加范围较小,也反映了两者之间语义层面上的差异程度较大。接下来利用模型可视化工具对翻译结果做进一步探讨。

　　利用模型可视化工具TensorFlow,把预训练模型word2vec_100通过主成分分析(PCA)降维方法映射到低维空间Embedding Projector中,选取一定数量的有道翻译结果作为初始样本输入,逆向观察以有道翻译结果为参照的词语语义相似范围。我们以选取的石油术语carbon residue、gas rock、fault、cementing、void等为例进行对比分析。在石油领域,上述术语的意思分别为:残碳、盖层、断层、注水泥、孔隙;而有道翻译结果为:碳渣、天然气的岩石、缺点、固井、无效。

　　实验思路:把void的有道翻译结果“无效”呈现在三维可视化的向量空间模型中,以“无效”为中心词,通过收缩中心词周边词汇的范围来不断追踪标准翻译“孔隙”,借助周边词汇数值来量化有道翻译结果和标准翻译结果的距离差值和靠拢程度。实验操作为:首先把void有道翻译结果呈现在向量空间中,把它的周边词汇范围数值设置为100个,结果未追踪到目标词汇“孔隙”;然后把周边词汇范围扩大为150个,也没有发现目标词汇;继续扩大至200个,最终未能找到目标词汇(可视化结果见图1)。以同样的方法,对石油术语“cementing”进行分析后发现把周边词汇范围增加至100个以后能追踪到标准翻译结果(可视化结果见图2)。

　　模型内追踪对比实验结果说明,在语义范围上,石油术语“void”有道翻译和标准翻译的词汇距离至少为200个,语义相差较大;术语“cementing”的有道翻译结果在空间模型上与标准翻译结果的交汇点至少出现在100个词之后。这说明针对该术语的两种翻译结果存在较远的语义距离。接下来我们从文本相似度的角度继续开展实验论证有道翻译对于石油术语文本整体翻译的处理能力。

　　文本相似度不仅体现在语言片段组合的似然性,更重要的是反映语言片段所体现的语义吻合度[12],“余弦值”在自然语言处理中被广泛地用于计算词向量的相似性[13]。余弦值的范围在[0,1]之间,值越接近于1说明两个向量的夹角越接近于零或趋于重合,也就意味着这两个向量的相似度越高;反之,相似度越低。

　　其中,A和B表示文本的特征向量,A和B表示对应特征向量的长度,A·B表示两个向量的点积,A × B表示两个向量的模的积。在此,我们将石油术语有道翻译结果合并为一个文本,记为文本一(A1),将石油术语的标准翻译合并为文本二(B1),将石油术语权重用W表示。我们借用训练出来的向量模型word2vec_100来计算A1和B1的余弦值,整体上验证有道翻译结果和人工翻译结果的文本吻合程度。

　　实验结果显示: A1与B1的文本相似度为0.403 068 95,即有道翻译与标准翻译文本相似度为0.403 068 95。文本相似度作为语义层面的评估参数,主要表现为从机器翻译文本与人工翻译文本之间的相似程度来衡量计算机对于自然语言理解和处理的忠实效果。由以上数据结果可以判断有道翻译软件对于石油垂直学科领域术语翻译准确度并不高,该实验结果与直观统计验证分析结果相吻合。

　　本文借助计算机技术从词向量空间模型的方法出发,分别开展了语义范围界定、空间模型追踪和文本相似度对比等具体实验操作对机器译文质量进行量化分析,尝试提出一种从局部到整体的机器翻译质量评价途径,希望能为机器翻译性能提升提供一定的语言分析基础,为译后编辑人员衡量机器译文质量可接受程度提供参照。事实上半个世纪以来,机器翻译无论在理论层面还是实践层面都取得了巨大进步,已经实现从基于规则的翻译方法到基于大规模语料库翻译方法的转变。特别是近年来,随着神经网络的兴起,“深度学习机器翻译”技术是迅速发展的另一个突破点。但本次实验结果证实了机器翻译对于特定垂直学科领域语言翻译效果并不理想,也说明了加强机器翻译错误深层研究和分类学科语料库建设的必要性。本实验也存在一定的局限性,比如语料样本规模小、模型构建不完善等。因此,这也是未来工作方向之一。

免责声明：本站所有信息均搜集自互联网，并不代表本站观点，本站不对其真实合法性负责。如有信息侵犯了您的权益，请告知，本站将立刻处理。联系QQ：1640731186