リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する學術研究用データセットを公開
株式會社リクルートホールディングスの中間持ち株會社である株式會社リクルート(本社:東京都千代田區、代表取締役社長:北村吉弘、以下リクルート)は、このたび、當社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢獻するため、株式會社リクルートライフスタイル(本社:東京都千代田區、代表取締役社長:淺野 健、以下リクルートライフスタイル)が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12萬件のデータを含む學術研究用データセットを、公的研究機関および大學の研究で活用いただくために公開します。
日本語の自然言語処理における課題
自然言語処理とは、私たちが日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し、検索エンジンや機械翻訳、対話システム、顧客の聲分析など、生活?ビジネスにおけるさまざまなシーンで利用されています。
日本語の自然言語処理の場合、主要な他言語と比べて、公開されているデータセットの數が圧倒的に少ないという課題があります。日本語の自然言語処理を発展させるために、學術研究用に利用可能なデータセットを充実させることが特に望まれています。
公開する學術研究用データセットについて
今回、Megagon Labsが公開するデータセットは、 リクルートライフスタイルが提供する旅行サイト『じゃらんnet』上で公開されている宿泊施設へのクチコミと、それを基に加工?作成した文章にラベル付け(アノテーション)を行ったものです。実際に『じゃらんnet』をご利用いただいた多くのお客様による事実の説明や感想、評価などを含む様々な文章が基となっており、幅広い日本語自然言語処理にご活用いただけます。具體的には、以下2つのデータセットをそれぞれのリポジトリにて公開します。
(1)含意関係データセット
「部屋はオーシャンビューで景色がよかったです?!工趣いξ膜嗓炅ⅳ膜趣覆课荬楹¥姢à??!工趣いξ膜獬嗓炅ⅳ膜嗓Δê忾v係の有無)というラベルを付與したデータセットです。(約55,000件)
ポジティブ/ネガティブ/ニュートラルといった感情極性ラベルや、宿の特徴が含まれているかどうかというラベルも付與した文も含まれています。(約5,600件)
https://github.com/megagonlabs/jrte-corpus
(2)根拠説明データセット
宿をお薦めする際に、ユーザーの要求に対する推薦根拠を説明するためのデータセットです。(約37,300件)
例えば、「お子様連れに優しい宿」を求めるユーザーに対して、「この宿には大きなキッズスペースがあるので、あなたにオススメです」と根拠付きで返答することを目指しています。文単位で要求に対応する根拠かどうかをラベル付けし、その後、根拠と判斷された文を推薦文へと言い換えています。
https://github.com/megagonlabs/ebe-dataset
日本語の自然言語処理研究に取り組む研究者にこれらのデータセットを活用いただくことにより、さらなる研究の加速が期待できます。なお、本データセットは學術研究用途での利用を意図したもので、非営利目的でのみ利用可能なライセンス付與を行います。
Megagon Labsは、今後も継続的に學術研究用データセットを公開し、日本語自然言語処理技術の発展に貢獻してまいります。本學術研究用データセットにつきまして何かお気づきの點がございましたら、下記お問い合わせ先へご連絡ください。
Megagon Labs 學術研究用データセットページ
https://www.megagon.ai/jp/projects/datasets/