Text
detail
1)基礎データ
【データセットの構成】
本LODは4つのデータセットから構成される。
① katati(.txt .xlsx .ttl )
② katati_dic(.txt .xlsx .ttl )
③ katati_unicode(.txt .xlsx .ttl )
④ Kanji-katati-LOD(.ttl )
①~④のデータについては本記事にリンクさせているLinkData.org上のページにて公開している。但し、④のデータについてはアップロード形式が制限されていたため、別途githubに公開している。
githubリンク:https://github.com/MIWAR-u/kanji-katati-input/tree/main
① katati(.txt .xlsx .ttl )について
本データは漢字構成とその「よみ」「かたち」によって構成されている。
例えば「亻」では、
よみ:にんべん
かたち:ノ,|
かたち:イ
というデータが記録されている。
② katati_dic(.txt .xlsx .ttl )について
本データは漢字構成を「かたち」によって説明する際に使用する「|」や「ノ」といった漢字以外の文字を対象とする。これらの文字について、「代表値」「別の言い方」が与えられる。
例えば、「|」の場合、
代表値:|
別の言い方:|
別の言い方:縦
別の言い方:たて
別の言い方:I
というデータを付した。
③ katati_unicode(.txt .xlsx .ttl )について
本データは①について、「かたち」の説明をUnicodeに変換したものである。Unicodeで表現することによって同じ構成を持つ漢字構成同士をリンクすることを企図した。
④ Kanji-katati-LOD(.ttl )について
本データは②と③を統合し、③にて企図した構成要素同士のリンクを実現したものである。
例えば、「亻」の場合、
<http://example.org/katati/resource/U4EBB>
prop:Unicode "U+4EBB"@ja ;
prop:つくり "亻"@ja ;
prop:なまえ "にんべん"@ja ;
prop:かたち [ rdf:value dic:U30CE, dic:UFF5C ] ;
prop:かたち [ rdf:value dic:U30A4 ] ;
.
とした。「かたち」において空ノードを用いることで複数の「亻」を「ノ」と「|」で表すといった組み合わせの情報を保持しつつ、「かたち」同士のリンクを表現した。
さらに、「彳」の場合には、
<http://example.org/katati/resource/U5F73>
prop:Unicode "U+5F73"@ja ;
prop:つくり "彳"@ja ;
prop:なまえ "ぎょうにんべん"@ja ;
prop:かたち [ rdf:value dic:U30CE, res:U4EBB ] ;
.
とした。すなわち、「彳」を「ノ」と「亻」で構成される「かたち」と定義し、「亻」と接続させたのである。
【二次利用について】
本データセットは、ライセンス「CC- BY 4.0(表示4.0国際)」で公開しており、自由な二次利用が可能である。
2)データのLOD化
【Kanji-katati-LODの作成について】
本データセットに含まれる漢字構成は部首を中心に作者が取捨選択した全284の構成部品と49の構成部品を説明するための語彙集で構成されている。漢字の構成要素をその構成要素の名前、あるいは「かたち」によって説明した。「かたち」とは、構成要素の形状を指す。
例えば「亻」では、
よみ:にんべん
かたち:ノ,|
かたち:イ
というデータを付した。
また、「氵」では、
よみ:さんずい
よみ:さんずいへん
かたち:点, 点, 点
かたち:シ
というデータを付した。
このように、漢字の構成要素と「よみ」や「かたち」による説明をリンクしたのがKanji-katati-LODである。
【データの有用性】
漢字構成データベースは大変有用であるが、構成を入力するのが難しいという難点がある。最大限利活用するためには、漢字構成を入力するシステムがあれば、この課題を克服することができるだろう。本データセットは構成要素の「よみ」や「かたち」の把握によって漢字構成を入力することを可能にする。
【データ利用のしやすさ】
本データセットには、データを共創することに重点を置いた文字による「かたち」記述と、接続することに重点を置いたUnicodeによる「かたち」記述の2種類のデータを用意した。検索システムへの利活用ではUnicodeによる記述が適しているが、我々が「かたち」による記述を確認し、新たな記述の仕方を考案する際には文字による記述が適している。このように、利用場面に応じたデータを整備している。
【データの連携可能性】
本データセットは全ての漢字構成にUnicodeを付与している。これによって他の文字データとの連携が容易になる。特にCHISE文字モデルとの連携が期待される。
CHISE文字モデルを活用した漢字検索システムでは、漢字の構成要素を入力することで漢字を探すことができる。現状は漢字の校正要素、例えば「氵」のように要素そのものを入力する必要があるが、本LODとの接続によって「よみ」や「かたち」によって要素を入力し、漢字を検索することができるようになるだろう。
3)データの利活用について
【検索システムの公開】
本データセットを活用し、「よみ」や「かたち」による漢字構成要素検索ツール「漢字かたちサーチ」をgithubにて公開している。
「漢字かたちサーチ」:https://miwar-u.github.io/kanji-katati-input/
【活用の可能性】
(1)研究における利活用
人文学の研究において情報技術の活用が進んでいる。例えばテキストマイニングを行う場合にはテキストデータの作成が必要であるが、OCR結果の修正などにおいて手入力する必要があることもある。漢字構成によって漢字を検索し、入力する場合の漢字構成の検索において本データセットを活用することができる。
(2)教育における利活用
本データセットは漢字構成を読みや画数ではなく、直観的な形状の把握によって説明するものである。未知の漢字に出会った場合、直観的な形状の認識から検索することで容易にアクセスする手段となるのではないか。
4)おわりに
本データセットは漢字を「かたち」によって説明することを試みた。ただし、「かたち」による説明は作成者の主観による部分が大きい。利用者が自分なりの説明を試みることで、豊かなデータセットが実現する。ぜひご活用いただき、フィードバックをいただきたい。
Update: Jan 23, 2026
(R.MIWA)

