Research Projects
荒瀬研で取り組んでいる研究
2つのテキスト間の意味の類似性を推定する技術を研究しています。意味の類似性判定は検索や質問応答、対話システムなど様々な言語処理を支える基礎技術です。 使われる語や文法的な構造は異なるのに意味が似た表現を言い換え表現といいますが、このような言い換え表現の認識、生成技術を開発しています。 またテキスト間で意味が一致する箇所を推定する単語・句のアラインメント技術により、単語列から意味が構成されるメカニズムを明らかにすることを目指しています。
キーワード
- 言い換え表現
- 含意関係
- 単語・句アラインメント
代表的な論文
- Y. Arase, H. Bao, and S. Yokoi. Unbalanced Optimal Transport for Unbalanced Word Alignment, in Proc. of the Annual Meeting of the Association for Computational Linguistics (ACL 2023), pp. 3966–3986 (July 2023).
- S. Kadotani and Y. Arase. Monolingual Phrase Alignment as Parse Forest Mapping, in Proc. of the Joint Conference on Lexical and Computational Semantics (*SEM 2023), pp. 449–455 (July 2023).
- 高山 隼矢, 梶原 智之, 荒瀬 由紀. 対話における間接的応答と直接的応答からなる言い換えコーパスの構築と分析. 自然言語処理Vol. 29, No. 1, pp. 84-111 (2022年3月).
- Y. Arase and J. Tsujii. Compositional Phrase Alignment and Beyond, in Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2020), pp. 1611-1623 (Nov. 2020).
- Y. Arase and J. Tsujii. Transfer Fine-Tuning: A BERT Case Study, in Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP2019), pp. 5393-5404 (Nov. 2019).
言い換え表現技術を応用して言語学習支援を行うシステムを開発しています。 言語学習においてはネイティブ話者の書くオーセンティックな英語、かつ学習者のレベルに適した英文に多量に触れることが効果的ですが、そのような英文は希少です。 そこで言い換えによりオーセンティックな英文を様々な難易度に変換するテキスト平易化技術を開発しています。また言語資源構築、英文難易度推定等、言語学習に役立つ様々な技術を研究しています。
キーワード
- テキスト平易化
- 英文難易度推定
- 難易度別言い換えコーパス構築
代表的な論文
- R. Miyano, T. Kajiwara, Y. Arase. Self-Ensemble of N-best Generation Hypotheses by Lexically Constrained Decoding, in Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2023), pp. 14653-14661 (Dec. 2023).
- 舌 達也, 梶原 智之, 荒瀬 由紀. 編集操作予測に基づく語彙制約付きデコーディングによるテキスト平易化の難易度制御. 自然言語処理 Vol. 30, No. 3, pp. 991–1010 (2023年9月).
- Y. Arase, S. Uchida, and T. Kajiwara. CEFR-based Sentence Difficulty Annotation and Assessment, in Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2022), pp. 6206-6219 (Dec. 2022).
- H. Huang, T. Kajiwara, and Y. Arase. Definition Modelling for Appropriate Specificity, in Proc. of Conference on Empirical Methods in Natural Language Processing (EMNLP 2021), pp. 2499–2509 (Nov. 2021).
- D. Nishihara, T. Kajiwara, and Y. Arase. Controllable Text Simplification with Lexical Constraint, in Proc. of Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, pp. 260-266, (July 2019).
医療の現場ではカルテ、看護記録、検査レポートなど膨大な記録作業が日々行われていますが、その多くが非構造化テキストです。 そのためテキストデータは存在するにも関わらず、治療や検査の経過を把握したり集約して知識として再利用するのは容易ではありません。 この現状を打破し、医療従事者の貴重な時間を有効活用できよう医療文書処理技術を開発しています。
キーワード
- 医療言語処理
- 要約
- ドメイン適応
- データ拡張
代表的な論文
- S. Ohashi, J. Takayama, T. Kajiwara, and Y. Arase. Distinct Label Representations for Few-Shot Text Classification, in Proc. of the Annual Meeting of the Association for Computational Linguistics and International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), pp. 831-836 (Aug. 2021).
- S. Ohashi, J. Takayama, T. Kajiwara, C. Chu, Y. Arase. Text Classification with Negative Supervision, in Proc. of Annual Meeting of the Association for Computational Linguistics (ACL 2020), pp. 351–357 (July 2020).
- Y. Arase, T. Kajiwara, and C. Chu. Annotation of Adverse Drug Reactions in Patients’ Weblogs, in Proc. of International Conference on Language Resources and Evaluation (LREC 2020), pp. 6769–6776 (May 2020).
大規模言語モデルは言語処理技術を大きく向上し、情報処理基盤として広く社会に浸透するに至りました。 しかしハルシネーションや敵対的プロンプトによる偽情報の生成、社会的バイアスの助長など多くの問題を内包しています。 それにも関わらず、このような大規模言語モデルによる人間や社会に許容されない振る舞い (ミスアラインメント) を評価する基盤が整っていないのが現状です。 本プロジェクトではミスアラインメントを包括的に検出・評価する技術を開発します。
2024年度開始の新プロジェクトです。
キーワード
- 大規模言語モデル (LLMs)
- ミスアラインメント
- 偽情報
- ハルシネーション