◎2005/ 1/ 1

ウェブ翻訳ソフト開発の経緯

■ 韓国語 Word Picture シリーズ について

 近年、ワールドカップ共同開催や韓国メディアを中心とする’韓流’ブームなどで、ますます身近に
なったハングル(韓国語・朝鮮語)は、学習やビジネスでの需要が高まりつつあります。
 そこで、ハングル文書の自動翻訳プログラムとして手軽に購入にして扱える、'韓国語 Word Picture'
シリーズを企画制作いたしまた。
 このたびご紹介の、'HTML Translator'や'韓国ネットの友'は、インターネット時代に即した機能の
全自動テキスト翻訳プログラムとして、皆様に活用していただけるものと確信しております。

 今後とも、皆様方のご期待と助力をいただき、本来の’Word Picture’の意味をもつ、'流麗な文書’
に近づけるべく努力いたす所存でございます。

1.HTML形式のテキスト

 インターネット ハイパーテキスト(HTML)形式で書かれた文章は、様々なコンテンツ(文章・
グラフィック・ムービーなど)を画面上に表現できる自由度から、ウェブサイト以外のプレゼンテー
ションなどにも用いられ、最近のワードプロセッサソフトにおいてもハイパーテキスト形式でファイル
を出力できることが、ごく標準的な機能となっています。
 今後、ワープロ文書に変わって、より様々な用途に用いられることと思われまれ、HTML形式の
テキスト翻訳を主要な目的とした翻訳ソフトの開発に至りまいた。

2.日本語とハングル文字

 もともと、中国を発祥とする漢字語圏に属する日本も、象形文字を起源とする’表意文字’としての
絵文字で表記されています。 ただし、日本のばあい、和文字(平仮名)との融合において漢字の読みが
元来の読み(音読み)と古来の読み(訓読み)のように、複数の読みが一つの漢字に与えられ、当て字を
含めると非常に多くの読みが存在します。
 韓国固有の文字であるハングル文字は、1443年に李朝第四代’世宗大王’によって草案され、世界的
にも新しい文字で、漢字一文字に対しハングル文字一字が表音文字として表現されています。 また、
基本的には漢字の読みは一語に一種類しか存在しません。 (首都 ,ソウル ,空 ,ハヌル ,海 ,
パダ ,島 ,ソム などのように、漢字語以外の言葉も多く存在します)

 元来同じ読みの漢字は複数存在し、その組み合わせの熟語で表され、一文字で意味を認識することは
元来困難です。 また、その読みである(表音文字)ハングル文字での認識は、さらに認識が困難だと
考えられます。

 そのためには、文脈(前後の文の関係)や使用頻度から、異口同音の識別を行う必要があります。

3.一般的な翻訳エンジンの構造

 翻訳精度を向上させるためには、辞書データベースの容量をアップするのが容易な解決方法です。
 しかし、翻訳の対象別に、辞書機能を整合させなければ誤訳の確立も増加します。 これは、前述の
表意文字(漢字語)の表音文字(ハングル文字)化により、同音異口の語が多数存在するため(通常は
使用頻度の高い順に用います)、その優先順序や辞書の種類を、翻訳目的(業種)で指定しなければ
なりません。

3.'HTML Translater'の翻訳エンジンの構造

 翻訳の対象が不特定で、散文的な要素の文脈や、外来語・固有名詞(人名)などが混在するウェブ
ページの翻訳は困難を極めます。 また、辞書容量を増加させても翻訳精度はその容量に比例せず、
場合によっては誤訳の原因ともなり得ます。
 このため汎用な用途に適した、文脈の自動認識による対象となる同音異口の語の選定や、複数の
翻訳エンジンによる多数決変換、ハングルの特質を活用した語法による品詞の自己活用などにより、
翻訳精度の水準を維持しながら、小型な自動翻訳エンジンを実現しました。