吃音のため利用したいです,普通のスピードでお願いします.テキストの行間はスライド切り替えの時間です.
言語構造の統計的通時分析を指向した言語間距離の可視化という題で発表を始めます.修士1年のなかいです.よろしくお願いします.
まず簡単に自分について話します.自分は去年までSFCで生き物の進化について研究を行っており,縁あって今年からこの研究室で言葉の進化についての研究を行うことにしました.
主に,今までの進化のMissing linkをどのように推定するかや,ありえた進化プロセスによってどのような世界になっていたかに関して,非常に興味があります.
背景として,進化という現象に関する先人の取り組みに関してご紹介したいと思います.
今から150年ほど前から,チャールズダーウィンをはじめとした様々な研究者が生き物やことば,ぶんけんなどあらゆる情報の歴史的な関係を視覚から得られた情報を元に分析してきました.1900年後半から数理統計の発展とともに,より深いレイヤーから得られたデータを用いた定量的な推定が行われるようになり,今に至ります.
言語は初めから今の姿を取っているわけではなく,局地的に存在していたpre-languageから人の移動やコミュニティ形成,その他様々な要素によって広まっていったとされています.数え方にもよりますが,6000種類あるとされる現在の言語に関する最もメジャーな分類がこちらになります.
自分が研究を行う目的として,言葉の多様性や,それら研究に基づく知見をまとめて広めたいというものがあります.又,絶滅しそうな少数言語の特徴を可視化して,ITの力で後世に残したいと考えています.勿論,言語進化に関する未解決の問題をといて,言語に関する新たなサイエンスを開拓する狙いもあります.
従来言語同士の関係性は,世界中どこでも存在する概念を意味するたんごの類似性によって分析されてきました.この図が表す通り,従来の先行研究と同様言葉の多様性を反映しています.しかし,たんごのかたちは数十年で簡単に変わってしまう上に,従来メジャーであった系統樹という手法では,言葉の空間的な変化のプロセスを反映できないため,別のデータや可視化の手法を用いる必要があります.
そこで,言葉のうち,文法構造に関する情報から言葉同士の距離を推定してみました.
今回用いた可視化の方法は一度に比較できる要素の数は限られているものの,こちらの方がより直感的に理解できるというメリットがあります.
シベリア中央部のKetと、北アメリカのNa-Deneは同じ系統にあることが知られていますが、これら2つの言語は比較的高い類似度を示しました.
一方で、Ketとは,同じシベリアのメジャーな分類のツングース語族の類似度は低いとされています
議論としましては,系統推定の際に本来必要な標本再抽出を行わなくても語族の分布が明確な形で分かれたのは,言語が独自に分岐した後に独自の方向で進化を遂げた証拠であると考えられます.
また,同じ系統関係にあるとされる言語よりも高い相関関係を示した他の系統の言語の存在に関して,系統距離が離れている構造要素 (特徴量) が元データから欠損している事が主な原因であると考えました.
更に,言葉の構造は単語よりも遥かに安定的なので,構造の情報を語彙の系統樹に付加することで推定精度が上がるかもしれません.
今後の展望としましては,今回言語距離の推定に用いたgap statisticsという方法以外のモデルを用いて分析結果に反映・比較させたり,元データの検証をする事が急務であると考えます.また,今回はあらゆる特徴量に関する個別の分析結果は示していないので,それらが分類ごとにどのような分布関係にあるのかを明らかにしたいと考えています.
ご清聴ありがとうございました.