【エントリー作品の詳細説明】
小倉百人一首LODは、全国各地の図書館に所蔵している古典籍の画像データと翻刻データ、および英語本の翻訳データを提供するデータセットである。LODチャレンジ2017において、データセット部門最優秀賞を受賞し、LODチャレンジ2018ではIIIF(International Image Interoperability Framework)を使って、画像のリンクの改善を行い、LODチャレンジ2019では英語翻訳資料のデータの追加を行った。LODチャレンジ2020では「みんなで翻刻」プロジェクトと連携してデータの翻刻データの拡充を行い、これらの継続的な活動からプログレス賞を受賞している。
2020年までのデータモデルは「小倉百人一首LODのデータモデル設計と構築」『情報の科学と技術』2021 年71 巻8 号 p. 376-381( https://doi.org/10.18919/jkg.71.8_376 )にまとめ、発表した。
今年度LODチャレンジ2021では、音声データの追加を行った。小倉百人一首には、遊びとしての知名度・人気があり、かつ和歌研究にも膨大な資料的な蓄積があるため、かるたLODとして活用された場合のインパクトが高い素材である。音声データの追加により、ゲームアプリケーション開発などにおいても、より便利なデータを提供できる。
今回の応募作品は、日本語の朗読1点(朗読者:加賀美幸子)、英語翻訳本(William N. Porter訳)の朗読1点(朗読者:Kevin Steinbach)のデータ化を行ったものである。LOD化にあたっては、音声データを上の句・下の句にわけて取得しやすいように始まりと終わりの時刻をデータ化したことや、朗読の文字起こしをした点、底本の和歌リソースとの間に相互リンクを形成した点に独自性がある。
[既存オープンデータの活用]
小倉百人一首LODは、原則としてオープンなライセンスを付与して公開されたデータを活用している。NHKクリエイティブライブラリーの日本語データと、LibriVoxの英語データを活用した。日本語データはCCBY-NC相当であるが、英語データはPublic Domainの作品を朗読し無料公開しているLibriVoxの音声データを利用しているため、本作品のオープン性は確保されている。作成したデータはCCBYで提供する。
【利用しているオープンデータ】
・LibriVox(free public domain audiobooks)"One Hundred Verses from Old Japan"
https://librivox.org/one-hundred-verses-from-old-japan-by-teika-porter/
・NHKクリエイティブ・ライブラリー 「音声百人一首」
https://www.nhk.or.jp/archives/creative/
【語彙の詳細】
小倉百人一首LODに音声データのとりこみを行うため、語彙の追加を行った。以下の3つの考え方で、音声データに一般的に必要な語彙に加えて、かるたに特有の語彙を独自定義し、語彙の定義表をver.5に書き換えた。
karutaの名前空間 https://github.com/tnanako/karutalod
(1)原本と音声との間は、dcterms:isFormatOfおよびdcterms:hasFormatで相互リンクする。
日本語朗読は底本が明確ではないため、小倉百人一首かるたデータと相互にリンクを形成した。英語翻訳本は既存のデータセット(William N. Porter訳One Hundred Verses from Old Japan)があるため、相互にリンクを形成した。いずれも和歌リソースの単位でのリンクである。
(2)音声データに必要な語彙は、schema.orgから採用した。
schema:transcription 朗読のテキスト
schema:readBy 読手・朗読者
schema:url ファイルのURL
schema:encodingFormat ファイル形式
schema:duration 継続時間
schema:startTime 始まりタイム
schema:endTime 終わりタイム
(3)かるたに特有の語彙として、開始時間、終了時間については、上の句と下の句をわけて記録することにした。
karuta:startTimeOfFirstHalf 上の句始まりタイム
karuta:endTimeOfFirstHalf 上の句終わりタイム
karuta:startTimeOfSecondHalf 下の句始まりタイム
karuta:endTimeOfSecondHalf 下の句終わりタイム
【新規作成データ】
・小倉百人一首のオープンデータ音声リスト http://linkdata.org/work/rdf1s8930i
・音声百人一首(NHKクリエイティブ・ライブラリー) http://linkdata.org/work/rdf1s8931i
・One Hundred Verses from Old Japan(Audio on the LibriVox) http://linkdata.org/work/rdf1s8932i
【修正作成データ】
・小倉百人一首かるたデータ http://linkdata.org/work/rdf1s6834i
※hasFormat に 音声データのURIを追加した。
・English Ogura Hyakunin Isshu translated by Porter http://linkdata.org/work/rdf1s8014i
※hasFormat に 音声データのURIを追加した。
[拡張可能性]
応募作品は、日本語朗読1点、英語翻訳の朗読1点であるが、データのモデルとしては他の作品も追加することが可能である。
[活用可能性]
音声データは上の句・下の句ごとに音声データを取得しやすいようにした。ゲームのアプリケーション開発等に活用することが可能である。
また、英語音声データには文字起こしのテキストをつけているため、外国語学習のアプリケーション開発にも資するデータとなっている。
Update: Nov 21, 2021
(Nanako Takahashi)