文学朗読音声データセットで AI開発を加速、日本語・1話者データ提供開始


文学朗読音声データセットの提供開始
Visual Bank株式会社は、高品質な音声合成(TTS)モデルの学習や自動音声認識(ASR)の精度向上、および自然言語処理(NLP)の研究に最適化された「日本語・1話者の文学朗読音声データセット」の提供を開始します。本データセットは、日本文学や小説作品を対象とし、同一の日本人話者が全編を朗読した音声と、その内容を正確に書き起こしたトランスクリプトで構成されています。
データセットの特徴と収録内容
収録されている音声は、作品の情景描写や地の文を一定のテンポで丁寧に読み上げる朗読特有のスタイルを維持しており、長時間の文脈に沿った一貫性のある発話特性を有しています。感情の起伏を抑えた安定した調子から、文学的表現に基づいた微細な抑揚までが含まれるため、文脈を考慮した高度な音声生成技術の検証に適しています。本データは、Qlean Datasetが展開するAI開発用オリジナルデータラインナップ「AIデータレシピ」の一つとして提供され、研究用途から商用利用を前提としたAI開発まで、幅広いフェーズでの活用を想定しています。
データセットの仕様
データ形式は音声がmp3、テキストはtxt、json、csvに対応しています。収録時間は1音声30秒から160分で、音声レートは44.1kHz、48kHzいずれかです。被写体属性は日本人であり、対象シーンは日本の小説や文学作品の文章を朗読するシーン、および地の文や情景描写を一定のテンポで読み上げる朗読シーンとなっています。
研究・産業での活用シーン
研究用途では、長尺文脈における音声合成の韻律制御研究に活用でき、数十分から一時間を超える長尺のテキストに対し、一貫した話者性を保ちながら、文脈に応じた自然なポーズや抑揚を生成するモデルの精度検証が可能です。産業用途ではオーディオブック・ナレーション生成AIの開発に利用でき、出版業界やエンターテインメント領域において、文学作品の複雑な構文を正確に読み上げるナレーションAIの学習データとして活用し、人間による朗読に近い自然なリスニング体験を実現する機能の開発ができます。また、文学表現に特化した自動音声認識の音響モデル最適化にも対応しており、日常会話とは異なる文語体や特有の語彙が含まれる文学作品の音声を正しく認識・テキスト化するための、特定ドメイン向けASRモデルのファインチューニングに利用できます。
Qlean Datasetについて
Qlean Datasetは、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。国内・海外のデータホルダーやラジオ・新聞社・通信社等のメディアとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しており、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援しています。
出典: https://prtimes.jp/main/html/rd/p/000000151.000108024.html