哪種方法可以評估人工AG捕王質量?為什么?


AG捕王2020-03-01 19:28:02



AG捕王質量
越來越多的AG捕王和本地化服務提供商面臨著在保持市場競爭力的同時快速穩定地提供高質量AG捕王的壓力,他們面臨著有效的AG捕王質量管理和評估的挑戰。



行業數據顯示,人們普遍認為有必要提高當前的AG捕王質量評估方法,但不同的生產流程需要特定的解決方案和工具(參見最近的調查)。然而,考慮到現有的各種方法和度量標準,在這個領域做出正確的選擇并不容易。本文概述了業內領先的人工AG捕王質量評估選項,旨在幫助AG捕王和本地化服務提供商找到滿足其需求的正確解決方案。



一個相當傳統但仍然非常常見的場景涉及人工評估,即審核者通過檢查譯文并尋找錯誤來對譯文評分;"錯誤"的概念比乍看起來更復雜,因為有幾個因素需要考慮:例如,錯誤的嚴重程度,這在某種程度上是主觀的,取決于對目標文本用戶的感知或預期影響。此外,抽象術語中的嚴重錯誤(例如,一個單詞中缺少否定或錯別字,導致說明書中有嚴重的誤導性含義)可能相對容易糾正,例如添加幾個字母或覆蓋一個錯誤字符。另一方面,在意義和內容方面表面上不太引人注目的問題可能很費時去糾正(例如,當正式變體更合適時,使用非正式的稱呼方式,所要求的改變包括使用敬語、代詞、動詞形式等)。)。為了在人類評估方法中考慮這些相當微妙的因素,通常會根據錯誤的類型和嚴重程度為錯誤分配“權重”,即與錯誤的重要程度相對應的數字乘數。

人類AG捕王質量評估方法主要有兩類,即錯誤率模型和量規模型。錯誤率模型更常見,并且基于錯誤計數,對應于AG捕王質量的減法模型;在這種情況下,分數(通常以百分比表示)表示AG捕王的質量:假設“完美”的AG捕王會得到100%的分數,錯誤會導致扣分(原則上,負分數是可能的)。可以為特定的AG捕王項目設置最低質量閾值:任何低于該水平的質量分數都將導致AG捕王因質量差(即不可接受)而被拒絕。采用錯誤率方法的AG捕王質量模型的常見例子有SDL TMS經典模型、SAE J2450模型和LISA質量保證模型(雖然后者不再正式可用,但其結構仍然是許多工具的基礎)。

人類AG捕王質量評估的另一大類度量標準和工具是由量規模型來表示的,這種模型目前在行業中似乎不太常見。這些具有加法性質,即從零開始,如果轉換滿足度量中指定的要求,則點被遞增地添加;這意味著總體質量分數是通過將積極的特征相加而獲得的。目前,標題模式在商業AG捕王和本地化中似乎仍然相對少見,仍然主要局限于學術界。然而,它們在未來可能會變得更受歡迎,并且在理論上,結合錯誤率和量規方法的混合模型是可能的,但是還沒有普及。在行業中,將這些AG捕王質量模型應用于被評估的文本樣本是很常見的,以減輕依賴于人類的這些評估方法所帶來的成本和時間方面的缺點。顯然,這涉及到某種程度的近似,盡管這些方法聲稱具有客觀性和可靠性。



雖然這里沒有詳細討論它們的空間,但值得一提的是國家專業AG捕王協會使用的認證考試的正式評估標準,因為它們可能會引起AG捕王和本地化行業參與者的一些興趣。這些規范旨在評估希望成為認證AG捕王的個人在考試條件下的表現,因此與商業領域的考慮有一些重疊。美國AG捕王協會就是這樣一個例子,它最近發布了自己的標準化錯誤標記框架:錯誤類別解釋。此處提供了關于這一評估計劃和其他類似評估計劃所涉及的問題的最新和易于理解的討論,這些評估計劃用于世界各地著名的筆譯和口譯專業機構的認證和認可

總結人類AG捕王質量評估方法的主要優點和缺點,它們都依賴于評估者發現源文本和目標文本之間在意義和/或形式上的差異,并判斷它們對AG捕王產品的影響。雖然這必然會保證準確性和可靠性(前提是評估人員訓練有素并獲得明確的評估準則),但這也需要相對較高的成本和耗時的過程;此外,對錯誤的性質、嚴重性以及“權重”的判斷在某種程度上是主觀的。這方面的一個常見問題是,AG捕王和本地化服務提供商往往不容易向他們的客戶解釋與建立健全的質量保證政策相關的影響和額外成本,盡管質量被普遍認為是最重要的。

對最廣泛使用的人工AG捕王質量評估指標和模型的比較顯示,許多被考慮的錯誤類別實際上對應于一般的語言錯誤(例如拼寫錯誤、語法錯誤等)。)在不需要雙語知識的目標文本中;因此,人們可以研究優化評估過程的可能性,首先讓一名單語評估員檢查譯文(專門檢查目標語言中的問題),將與原文相關的其他問題提交給另一名具有雙語專業知識的評估員。雖然這在原則上看起來是一個優雅的解決方案,但是有效管理這個過程的開銷可能并不能使它在實踐中可行。



為了解決上述指標的缺點,QTLaunchPad一直在與各種各樣的參與者合作,包括GALA、AG捕王培訓師、用戶組、公共和企業用戶、自由職業者和技術文檔創建者,以開發多維質量指標框架。這種方法允許用戶對不同的項目類型和工作流具有適應性和靈活性。MQM對源和目標有適用性,以促進文檔生產生命周期的完全集成,并對從內容創作者到AG捕王和后期編輯的所有利益相關者更加公平。它適用于人工和機器AG捕王工作流程及其組合,因此允許跨領域、項目甚至語言對的更大可比性。



MQM有一個自由、開放和靈活的平臺,它在一個統一的模型中支持需求規范、投標、AG捕王質量評估/保證和其他業務流程,以及在線標記問題解決和審計跟蹤。它的標準化已經建立在現有的國際標準化組織規范和上述流行模型的基礎上,并且不排除與這些現有模型的開放性和兼容性(例如與遺留系統如LISA質量保證和SAE J2450的完全兼容性),這允許保留現有的工作流,同時仍然利用MQM的特性和擴展。



最后,對業內最流行的人工AG捕王質量評估模型和度量標準的回顧表明,它們幾乎沒有共同的錯誤類別(值得注意的例外是術語的正確和一致使用,這是一個標準特征),而——或許令人驚訝的是——就其他錯誤類別而言,幾乎沒有發現重疊。這反過來又提出了一些問題,即一旦發現錯誤,應如何有效地加以糾正,以確保交付給客戶的最終AG捕王的質量得到增量和成本效益的提高。



最近一個一小時的QTLaunchPad網絡研討會對上述內容進行了更全面的討論,并通過GALA免費提供。有關多維質量指標和所有上述指標的更多信息,可在QTLaunchPad的培訓部分找到,其中還包括類似的培訓信息和自動和半自動評估方法的材料、質量保證和質量評估工具的鏈接,以及相關的AG捕王和機器AG捕王主題。



斯蒂芬·多爾蒂是都柏林城市大學下一代本地化中心的博士后研究員和講師。他擁有AG捕王技術博士學位,并為該領域的本科生和研究生授課,此外還有基于行業的AG捕王培訓,來自技術AG捕王背景。他目前正在從事歐盟委員會資助的QTLaunchPad項目,該項目旨在解決高質量人工和機器AG捕王的障礙。