Article Detail
NICTとニッパツ、“英語特許文”の高精度「自動翻訳ソフトウェア」を共同開発
“英語特許文”の高精度「自動翻訳ソフトウェア」を開発
〜NICTとニッパツが特許向け英日翻訳技術を共同開発し、5月にサービス開始〜
独立行政法人 情報通信研究機構(以下「NICT」、理事長:宮原 秀夫)と日本発明資料株式会社(以下「ニッパツ」、代表:森 紀二)は、共同で、“英語の特許文献(特許や実用新案など)”を日本語に自動的に翻訳する「自動翻訳ソフトウェア」を開発しました。本技術では、従来技術に比べて、大幅に翻訳誤りを削減しました。
平成25年5月に、ニッパツが、この英日自動翻訳ソフトウェアを活用したサービスを開始します。
【背景】
近年、海外で増加している特許の侵害・訴訟リスク(*1)を回避するため、外国の特許文献の検索や内容把握が不可欠となっており、日本語への翻訳ニーズが高まっています。しかし、人手による翻訳には費用と時間が莫大にかかる一方で、日本語への自動翻訳システムには精度が低いという問題があります。
特許文は、一文が非常に長く、また、英語や中国語の文法は、日本語の文法と全く異なります。そのため、翻訳の際、語順の変換が難しく、さらに、大量の専門用語の訳語を正確に選択することが求められます。このように特許文の翻訳は大変困難なため、完璧な翻訳を目指すのでなく、多少の不自然さを許容しても通じる翻訳の実現が目指されています。
NICTは、特許などの長文の自動翻訳技術の高精度化を目指して統計翻訳技術(*2)の高度化に取り組んでおり、昨年11月には、研究成果を活用した中国語から日本語への自動翻訳の事業化について、報道発表しました(*3)。
【今回の成果】
このような背景の下、NICTとニッパツは、それぞれの技術を連携させることによって、特許文の英語から日本語への自動翻訳技術の高精度化を目指した共同開発を行ってきました。
(1)NICTの技術:語順変換や専門用語の訳語選択を高精度に実現する英日自動翻訳技術(出願済、補足資料図1参照)
(2)ニッパツの技術:特許特有の文体を解析して、翻訳精度と読みやすさを向上するMT Plus技術(*4)
NICTとニッパツが共同で開発した「英日自動翻訳ソフトウェア」では、(特許要約1件あたりの)訳語誤り数を従来技術と比べて、約12分の1に削減するという高い品質を実現しました
(ニッパツ調べ:補足資料図2及び表1参照)。
【今後の展望】
今回開発した「英日自動翻訳ソフトウェア」によってニッパツは、(1)英語特許文献を日本語に翻訳するサービス、(2)日本語に自動翻訳した英語特許文献データベース、(3)MT Plus対訳公報などの販売を平成25年5月から開始する予定です。
NICTは、特許を含む多分野での長文翻訳の品質を今後更に改善するために、新たな技術の研究を推進してまいります。
<用語解説>
*1 特許の侵害・訴訟リスク
産業構造審議会知的財産政策部会第18回(平成24年6月25日)配布資料
「知財立国に向けた新たな課題と対応」より
http://www.jpo.go.jp/cgi/link.cgi?url=/shiryou/toushin/shingikai/sangyou_kouzou.htm
*2 統計翻訳技術
統計翻訳技術では、原文とその訳文の対を集めた対訳コーパスから二言語間の単語や句の対応関係を抽出した翻訳モデル(確率付きの対訳辞書と語順変換表)と訳文の言語らしさを表現する言語モデル(英日翻訳であれば、並びの自然さを表す確率付き日本語の単語連鎖データ)を導出し、これらの確率の積を最大化する訳文候補を出力する。
*3 NICTの報道発表資料
2012年11月5日発表
「“中国語特許文”の高精度「自動翻訳ソフトウェア」を開発
〜JapioとNICTが中日翻訳技術を共同開発し、デモを公開。来春事業化へ〜」
http://www.nict.go.jp/press/2012/11/05-1.html
*4 MT Plus技術
MT Plusでは、特許公報の各段落単位の独自表現の対応、特に要約、請求の範囲については、英文手がかり句解析を行い、発明の構成要素(複数)と発明対象を正しく分離・列挙することを可能とし、構成要素単位に「、と、」改行で区切る表現並びに日本特許公報の定型文体「・・を特徴とする○○○」の表現を可能とした。また、数式や数値範囲指定・化学式・表など非テキスト部についても、原文を忠実に再現できるようにした。
http://www.nefnet.co.jp/wp-content/uploads/2012/07/MTPlus.pdf
※補足資料は添付の関連資料を参照