2019年 | プレスリリース?研究成果
【TOHOKU University Researcher in Focus】Vol.006 言葉がわかるAIをつくる―目指すはオンリーワンの技術―
本学の注目すべき研究者のこれまでの研究活动や最新の情报を绍介します。
情报科学研究科 乾 健太郎 教授

情报科学研究科 乾 健太郎(いぬい けんたろう)教授
やがて多くの分野で础滨(人工知能)が人间にとって代わるだろうと言われています。しかし础滨は万能ではありません。たとえば现在の础滨は、言叶の意味や背景をなす常识を理解できません。机械学习によってたくさんの定型的なパターンを学习していることで、それらしい文章を作れているにすぎないのです。これは、言叶を话せる、言叶がわかるとはどういうことかという哲学的な问いにもつながる深い问题です。
自然言语とは
乾さんはたくさんのプロジェクトを同时进行させています。そのフィールドは「自然言语処理」と呼ばれる研究分野です。「不自然な言语」があるのかという声が闻こえてきそうですが、コンピュータの世界で言语といえばプログラミング言语のような「形式言语(人工言语)」を指すのに対して、人が使う言叶を「自然に発生した言语」という意味で「自然言语」と呼んでいるのです。自然言语処理とは、自然言语で伝达される情报や知识を理解し、検索?抽出したり、翻訳?整理?分析したりすることによって人、社会、机械のあいだのコミュニケーションを支援するソフトウェア技术を指します。
乾さんいわく、AIにとって自然言語処理は最大の難問とのこと。OK Googleなど、人と会話するチャットボットも出てきました。しかしそれらは、あくまでも音声認識機能による定型的な対応であり、人間どうしの会話のような臨機応変なやりとりはまだできません。
囲碁の世界チャンピオンに勝ったコンピュータ囲碁プログラム「AlphaGo(アルファ碁)」もAIです。その後開発された「AlphaGo Zero(アルファ碁ゼロ)」はさらにパワーアップしました。これは、深層学習(ディープラーニング)によってプロ棋士の大量の対戦記録から打ち筋を学んだAIが、さらに自分自身と対局を繰り返すことによって腕を磨いた成果です。
言語処理の分野でもこの深層学習が威力を発揮しています。なかでも躍進著しいのが機械翻訳です。機械翻訳の開発では、"good morning"と「おはよう」のように原文(入力)とその訳文(出力)がペアとなっている大量の翻訳データを用意し、そこから翻訳の変換規則となる複雑な関数を自働で学習させます。そこに深層学習を入れることで精度が上がってきました。
「限られた翻訳データから意味的に整合する滑らかな翻訳パターンを学習させるには、単語やフレーズの意味情報を計算機内部でどのように表現しておくかが重要な鍵になる」と乾さんは語ります。深層学習では、単語やフレーズのような記号的な情報もベクトルや行列のような連続量で表現します。表現の仕組みと学習アルゴリズムを工夫すると、例えば「着物」と「和服」、"reduce the risk of"と"prevent"のように字面がまったく違う単語やフレーズが意味的にはよく似ている、といったことを計算機が柔軟に計算できるようになります。乾さんのグループはこうした技術で世界的に競争力のある先進的な研究を展開しています。
その応用の一つが文章の自动添削。乾さんの研究室が开発した添削技术は2019年11月时点で英语の文法误り订正で世界最高の精度を达成しています。また、2018年には研究室の大学院学生が英语论文执笔支援エディタを开発するベンチャーを起业しました。大量の英语论文データからよく使われる言い回しを学习し、初学者が书く稚拙な英文をネイティブの论文らしい文章に「翻訳」する础滨です。ユーザは、础滨の提案を参考にしながら自分なりの论文を仕上げます。「自然言语処理自身が深层学习の技术革新の重要な発信源になっていて、おもしろい発明や発见が次々に起こっている」と乾さんは目を辉かせます。
乾さんたちはさらに野心的な研究にも取り组んでいます。その一つが础滨版「赤ペン先生」の开発。记述式の答案を解析し、「どこが良いか、不十分な点はどこで、どう直すとよいか」を説明して採点する础滨技术をめざします。これを実现するには、不完全で未熟な文章から文脉を読み取り、解答者が何を言いたかったのか、つまり解答者の意図を推测できなければなりません。これは础滨研究の歴史のなかで未解决のまま残っている重要课题。挑戦しがいのあるプロジェクトです。
行间を読める础滨をつくる
现在の础滨は文章の意図や行间を読むことができません。たとえば、「庭に洗濯物を干していたら、突然雨が降ってきてね」という话が会话の中で出てきたら、これが话し手にとって「がっかり」なエピソードだということを闻き手は瞬时に理解するでしょう。単纯なことのように见えますが、これが今の础滨にはとても难しいことだと乾さんはいいます。それぞれの単语の意味は学习である程度わかっていて、翻訳さえできる。けれども、今の础滨は常识的な知识を十分に持っていないので、「洗濯物を干す」とはどういうことか、「雨が降ってきた」らどうなるかを理解して、话し手に共感するといったことができないのです。こんな何気ない会话からも、人间だけが持つ言语能力のすごさがわかります。このギャップを埋められない限り、础滨との临机応変で筋の通った会话を期待することは难しいでしょう。
乾さんの研究グループはこの问题に世界に先がけて取り组み、奥别产で集めた大量の言语データから常识的な知识を自働収集する研究を进めるとともに、収集した大量の常识的知识を使って推论する世界最高速の仮説推论エンジンを开発するなど、成果をあげてきました。次の课题はこれらの成果をどうやってうまく深层学习と组み合わせるかだと乾さんは语ります。
自然言语処理の研究には长い歴史があります。もとをただせば、伝説的な天才アラン?チューリングが第二次世界大戦中に参加した、机械式计算机「ボンブ」によるドイツ军の暗号エニグマの解読成功にさかのぼるのです。その成功を受けて、戦后すぐに机械翻訳の研究が开始されました。以来、自然言语処理は础滨の中心的な分野として発展してきましたが、上で述べた行间の理解など、未解决の问题がまだ沢山残っています。
乾さんは、もともとは経済学部や経営学部への进学を考えていました。しかし情报工学という分野の存在を知り、文系から理系に进路を変更しました。それでも当初は、経営コンサルティングのような分野に进みたいと思っていたそうですが、言叶の意味を数学の道具を使って计算しようとする人工知能?自然言语処理の面白さに目覚め、この分野にのめり込みました。
础滨研究の魅力は、人间にはできるけれど机械には苦手なこと、机械にとって真に难しいことは何かを探ることだと乾さんはいいます。自然言语処理でいえば、础滨にやらせることで「言语」とは何か、「意味」とは何か、我々人间はどうやって互いに「理解」し合えているのかといったサイエンスや哲学の问题に迫れる可能性があるからだそうです。
自然言语処理は各国で精力的に研究されています。その中にあって乾?铃木研究室は世界に伍しており、いくつかの分野ではトップを走っています。人间にしか操れない言语を础滨で処理するための问题は无限に残されています。研究テーマは尽きないと、乾さんは楽しそうに语ります。
文責:広報室 特任教授 渡辺政隆

サイエンスカフェには和服姿で登坛。着物が好きで、饮みに行くときなどによく着る。
関连リンク
问い合わせ先
东北大学総务企画部広报室
贰-尘补颈濒:办辞丑辞*驳谤辫.迟辞丑辞办耻.补肠.箩辫(*を蔼に置き换えてください)