• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 一部申し立て 2項進歩性  G10L
管理番号 1379821
異議申立番号 異議2021-700142  
総通号数 264 
発行国 日本国特許庁(JP) 
公報種別 特許決定公報 
発行日 2021-12-24 
種別 異議の決定 
異議申立日 2021-02-10 
確定日 2021-10-09 
異議申立件数
訂正明細書 有 
事件の表示 特許第6747489号発明「情報処理方法、情報処理システムおよびプログラム」の特許異議申立事件について、次のとおり決定する。 
結論 特許第6747489号の特許請求の範囲を訂正請求書に添付された訂正特許請求の範囲のとおり、訂正後の請求項〔1?9〕について訂正することを認める。 特許第6747489号の請求項6?9に係る特許を維持する。 特許第6747489号の請求項1、3?5に係る特許についての特許異議の申立てを却下する。 
理由 第1 手続の経緯
特許第6747489号(以下、「本件特許」という。)の請求項1?11に係る特許についての出願は、平成30年11月6日に出願されたものであって、令和2年8月11日にその特許権の設定登録(特許公報発行日 令和2年8月26日)がされた。
その後、令和3年2月10日に特許異議申立人家田亘久により本件特許の請求項1、3?9に対して特許異議の申立てがされた。
そして、その後の経緯は次のとおりである。

令和3年4月6日付け:取消理由通知書
同年6月9日 :訂正請求書、意見書の提出(特許権者)

なお、特許異議申立人から上記訂正請求書等に対する意見書は提出されなかった。

第2 訂正の適否についての判断
1 請求の趣旨、訂正の内容
(1)請求の趣旨
令和3年6月9日に特許権者により行われた、願書に添付した特許請求の範囲の訂正(以下、「本件訂正」という。)の請求の趣旨は、特許第6747489号の特許請求の範囲を、本件訂正請求書に添付した訂正特許請求の範囲の通り、訂正後の請求項1?9について訂正することを求める、というものである。

(2)訂正の内容
本件訂正の内容は以下のア?クのとおりである。

ア 訂正事項1
特許請求の範囲の請求項1を削除する。

イ 訂正事項2
特許請求の範囲において請求項1を引用する請求項2を独立形式に変更し、以下のように訂正する。
「【請求項2】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記発音条件は、音符毎の音高を含む
情報処理方法。」

ウ 訂正事項3
特許請求の範囲の請求項3を削除する。

エ 訂正事項4
特許請求の範囲の請求項4を削除する。

オ 訂正事項5
特許請求の範囲の請求項5を削除する。

カ 訂正事項6
特許請求の範囲の請求項6のうち、請求項1を引用するものを独立形式に変更し、以下のように訂正する。
「【請求項6】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記情報処理方法は、さらに、
新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
情報処理方法。」

キ 訂正事項7
特許請求の範囲の請求項7のうち、請求項1を引用するものを独立形式に変更し、以下のように訂正する。
「【請求項7】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。」

ク 訂正事項8
特許請求の範囲の請求項8のうち、請求項1を引用するものを独立形式に変更し、以下のように訂正する。(請求項8を引用する請求項9も同様に訂正する。)

「【請求項8】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記合成モデルは、
前記合成音の基本周波数の時系列を生成する第1生成モデルと、
前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデルとを含む
情報処理方法。」

2 一群の請求項について
訂正前の請求項1?9について、請求項2?9は、請求項1を直接的又は間接的に引用しているものであって、訂正事項1によって記載が訂正される請求項1に連動して訂正されるものである。したがって、訂正前の請求項1?9に対応する訂正後の請求項1?9は、特許法120条の5第4項に規定する一群の請求項である。

3 訂正事項1、3?5について
(1)訂正の目的
訂正事項1、3?5は、それぞれ請求項1、3?5を削除するものであるから、「特許請求の範囲の減縮」を目的とするものである。
したがって、訂正事項1、3?5は、特許法第120条の5第2項ただし書第1号の規定に適合するものである。

(2)願書に添付した明細書、特許請求の範囲又は図面に記載した事項の範囲内の訂正であること
訂正事項1、3?5は、それぞれ請求項1、3?5を削除するものであるから、願書に添付した明細書、特許請求の範囲又は図面に記載した事項の範囲内の訂正である。
したがって、訂正事項1、3?5は、特許法第120条の5第9項で準用する特許法第126条第5項の規定に適合するものである。

(3)実質上特許請求の範囲を拡張し、又は変更する訂正ではないこと
訂正事項1、3?5は、それぞれ請求項1、3?5を削除するものであるから、実質上特許請求の範囲を拡張し、又は変更するものには該当しない。
したがって、訂正事項1、3?5は、特許法第120条の5第9項で準用する特許法第126条第6項の規定に適合するものである。

(4)独立特許要件
本件特許異議申立事件においては、訂正前の請求項1、3?9について特許異議の申立てがされているから、訂正前の請求項1、3?5に係る訂正事項1、3?5に関して、特許法第120条の5第9項で読み替えて準用する特許法第126条第7項の独立特許要件は課されない。

4 訂正事項2、6?8について
(1)訂正の目的について
訂正事項2は、訂正前の請求項2が訂正前の請求項1を引用する記載であったものを、請求項間の引用関係を解消し、請求項1の記載を引用しないものとし、独立形式の請求項へ改めるための訂正である。
訂正事項6は、訂正前の請求項6が訂正前の請求項1?5の何れかの記載を引用する記載であったものを、請求項2?5を引用しないものとしたうえで、請求項1を引用するものについて請求項間の引用関係を解消して、請求項1の記載を引用しないものとし、独立形式の請求項へ改めるための訂正である。
訂正事項7は、訂正前の請求項7が訂正前の請求項1?6の何れかの記載を引用する記載であったものを、請求項2?6を引用しないものとしたうえで、請求項1を引用するものについて請求項間の引用関係を解消して、請求項1の記載を引用しないものとし、独立形式の請求項へ改めるための訂正である。
訂正事項8は、訂正前の請求項8が訂正前の請求項1?7の何れかの記載を引用する記載であったものを、請求項2?7を引用しないものとしたうえで、請求項1を引用するものについて請求項間の引用関係を解消して、請求項1の記載を引用しないものとし、独立形式の請求項へ改めるための訂正である。
以上から、訂正事項2、6?8は、いずれも「他の請求項の記載を引用する請求項の記載を当該他の請求項の記載を引用しないものとすること」を目的とするものである。
したがって、訂正事項2、6?8は、特許法第120条の5第2項ただし書第4号の規定に適合するものである。

(2)願書に添付した明細書、特許請求の範囲又は図面に記載した事項の範囲内の訂正であること
訂正事項2、6?8は、独立形式の請求項へ改めることが何ら実質的な内容の変更を伴うものではないから、願書に添付した明細書、特許請求の範囲又は図面に記載した事項の範囲内の訂正である。
したがって、訂正事項2、6?8は、特許法第120条の5第9項で準用する特許法第126条第5項の規定に適合するものである。

(3)実質上特許請求の範囲を拡張し、又は変更する訂正ではないこと
訂正事項2、6?8は、独立形式の請求項へ改めることが何ら実質的な内容の変更を伴うものではないから、実質上特許請求の範囲を拡張し、又は変更するものには該当しない。
したがって、訂正事項2、6?8は、特許法第120条の5第9項で準用する特許法第126条第6項の規定に適合するものである。

(4)独立特許要件
訂正事項2、6?8は、特許法第120条の5第2項ただし書第4号に規定する事項を目的とする訂正であるから、訂正前の請求項2、6?8に係る訂正事項2、6?8に関して、特許法第120条の5第9項で読み替えて準用する特許法第126条第7項の独立特許要件は課されない。

5 訂正についてのむすび
以上のとおりであるから、本件訂正請求書による訂正(訂正事項1?8)は、特許法第120条の5第2項ただし書第1号及び第4号に規定する事項を目的とするものであり、かつ、同条第4項並びに同条第9項において準用する同法第126条第5項及び第6項の規定に適合するものである。
したがって、特許請求の範囲を、本件訂正請求書に添付された訂正特許請求の範囲のとおり、訂正後の請求項〔1?9〕について訂正することを認める。

第3 訂正後の発明
令和3年6月9日の本件訂正請求により訂正された本件特許請求の範囲の請求項1?9に係る発明(以下、「本件訂正発明1」?「本件訂正発明9」という。)、及び、本件特許の請求項10、11に係る発明は、訂正請求書に添付された訂正特許請求の範囲に記載された以下のとおりのものである。
なお、上記第2のとおり、請求項1、3?5は、本件訂正請求により削除された。
ここで、本件訂正発明6?本件訂正発明8の各構成には、(A)?(H)の符号を付した。以下、構成A?構成Hという。

〔本件訂正発明1〕【請求項1】
(削除)

〔本件訂正発明2〕【請求項2】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記発音条件は、音符毎の音高を含む
情報処理方法。

〔本件訂正発明3〕【請求項3】
(削除)

〔本件訂正発明4〕【請求項4】
(削除)

〔本件訂正発明5〕【請求項5】
(削除)

〔本件訂正発明6〕【請求項6】
(A)発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記情報処理方法は、さらに、
(B)新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
(C)前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
(A)情報処理方法。

〔本件訂正発明7〕【請求項7】
(A)発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
(D)前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表し、
(E)前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
(A)情報処理方法。

〔本件訂正発明8〕【請求項8】
(A)発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
(F)前記合成モデルは、
前記合成音の基本周波数の時系列を生成する第1生成モデルと、
前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデルとを含む
(A)情報処理方法。

〔本件訂正発明9〕【請求項9】
前記情報処理方法は、さらに、
(G)前記第1生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、
(H)前記第2生成モデルは、前記編集後の基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する
(A)請求項8の情報処理方法。

【請求項10】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
を具備する情報処理システム。

【請求項11】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラム。

第4 取消理由通知に記載した取消理由について
1 取消理由の概要
令和3年4月6日付けで特許権者に通知した取消理由の概要は、次のとおりである。

理由1(新規性) 請求項1、3?5に係る発明は、甲第1号証に記載された発明であって、特許法第29条第1項第3号に該当するから、請求項1、3?5に係る特許は、特許法第29条第1項の規定に違反してされたものであり、同法第113条第2項の規定により取り消されるべきものである。


理由2(進歩性) 請求項1、3?5に係る発明は、甲第1号証に記載された発明に基づいて、当業者が容易に発明をすることができたものであるから、請求項1、3?5に係る特許は、特許法第29条第2項の規定に違反してされたものであり、同法第113条第2項の規定により取り消されるべきものである。

甲第1号証:特開2018-146803号公報

2 訂正後の発明について
前記取消理由の対象とされた請求項1、3?5は、上記第3のとおり、本件訂正により全て削除された。
これにより、上記取消理由通知に記載した取消理由は、取消理由の対象が存在しないものとなった。

第5 取消理由通知に記載しなかった特許異議申立理由について
1 取消理由の概要
上記第4の取消理由において記載しなかった特許異議申立理由の概要は、特許異議申立書の(4)具体的理由(第6?42頁)(特に、請求項6?9についての具体的理由、及び、請求項6?9で引用される請求項1に係る発明が、甲第1号証(主引例)及び甲第2号証、又は、甲第2号証(主引例)及び甲第1号証から容易想到とされている点。)によれば、次のとおりのものと認められる。
なお、請求項1、3?5についての甲第2号証を主引例とする特許異議申立理由は、請求項1、3?5が本件訂正により削除されたことにより、検討を要しない。

(進歩性) 請求項6?9に係る発明は、以下に記載された発明に基づいて、当業者が容易に発明をすることができたものであるから、請求項6?9に係る特許は、特許法第29条第2項の規定に違反してされたものであり、同法第113条第2項の規定により取り消されるべきものである。

(1)請求項6に対して、
(1-1)甲第1号証(主引例)及び甲第2号証
(1-2)甲第2号証(主引例)及び甲第1号証

(2)請求項7に対して、
(2-1)甲第1号証(主引例)及び甲第2号証
(2-2)甲第2号証(主引例)及び甲第1号証

(3)請求項8に対して、
(3-1)甲第1号証(主引例)、甲第2号証、甲第3号証及び甲第4号証
(3-2)甲第2号証(主引例)、甲第1号証、甲第3号証及び甲第4号証

(4)請求項9に対して、
(4-1)甲第1号証(主引例)、甲第2号証、甲第3号証及び甲第5号証
(4-2)甲第1号証(主引例)、甲第2号証、甲第4号証及び甲第5号証
(4-3)甲第2号証(主引例)、甲第1号証、甲第3号証及び甲第5号証
(4-4)甲第2号証(主引例)、甲第1号証、甲第4号証及び甲第5号証

甲第1号証:特開2018-146803号公報
甲第2号証:特開2015-172769号公報
甲第3号証:Takashi Nose, Koujirou Ooki and Takao Kobayashi,
”HMM-BASED SPEECH SYNTHESIS WITH UNSUPERVISED LABELING OF
ACCENTUAL CONTEXT BASED ON F0 QUANTIZATION AND AVERAGE VOICE
MODEL”, ICASSP 2010, April 2010, p.4622 - 4625
甲第4号証:特開2016-114740号公報
甲第5号証:特開2015-60002号公報

2 甲号証について
2-1 甲第1号証について
(1)甲第1号証の記載事項
甲第1号証には次の記載がある。なお、以降の下線は、当審により付されたものである。

「【0001】
本発明は、DNN(Deep Neural Network:ディープニューラルネットワーク)を用いた音声合成装置及びプログラムに関する。」

「【0019】
〔音声合成装置〕
まず、本発明の実施形態による音声合成装置について説明する。図1は、本発明の実施形態による音声合成装置の構成例を示すブロック図である。この音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備えている。」

「【0021】
話者情報は、個々の発話者を識別するための情報であり、感情情報は、例えば喜び、怒り、悲哀、平静等の発話表現を識別するための情報であり、音声波形は、テキストに対する音声波形情報である。」

「【0029】
図7は、音響特徴量DNNの構成の概要を説明する図である。音響特徴量DNNは、学習時に、音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われる。
【0030】
学習のための音素フレームの言語特徴量は、例えば、音素の言語特徴量と同様の音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等に加え、音素を構成するフレームの番号(フレームの位置)、音素を構成するフレームの総数等の情報からなる。音素フレームの音響特徴量は、例えば、スペクトル係数、雑音性係数、ピッチ、有声/無声判定等の情報からなる。
【0031】
また、後述する音声合成時には、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力される。」

「【0040】
音素フレームの言語特徴量は、事前学習のための音素の言語特徴量の各種情報に加え、音素フレームを特定するための情報からなる。音素フレームの言語特徴量は、例えば「音素ラベル」「有声音の有無」「アクセントの位置」「フレームの番号」「フレームの総数」等の情報からなる。テキスト解析部11の詳細については後述する。」

「【0071】
〔合成処理部5〕
次に、図1に示した合成処理部5の構成について詳細に説明する。図5は、合成処理部5の構成例を示すブロック図である。この合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えている。」

「【0075】
話者感情ラベル処理部22は、図2に示した話者感情ラベル処理部12と同様の処理を行う。具体的には、話者感情ラベル処理部22は、話者情報及び感情情報を入力し、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、話者ラベル及び感情ラベルをテキスト解析部21に出力する。」

「【0083】
〔合成処理部5/処理〕
次に、図5に示した合成処理部5の処理について説明する。図11は、合成処理部5の処理例を示すフローチャートである。合成処理部5のテキスト解析部21は、合成対象の音声波形に対応するテキストに対し、テキスト解析を行い(ステップS1101)、音素の言語特徴量を生成する(ステップS1102)。
【0084】
話者感情ラベル処理部22は、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与する(ステップS1103)。
【0085】
時間長及び音響特徴量生成部23は、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づき音素の時間長を生成する(ステップS1104)。そして、テキスト解析部21は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成する(ステップS1105)。
【0086】
時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する(ステップS1106)。
【0087】
音声波形合成部24は、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する(ステップS1107)。」

(2)甲1発明
上記(1)から、甲第1号証には、以下の発明(以下、「甲1発明」という。)が記載されている。
ここで、甲1発明の各構成には、(a)?(i)の符号を当審において付した。以下、構成a?構成iという。
また、各構成の末尾に対応する記載事項の段落番号を付した。

〔甲1発明〕
(a)音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備え、(【0019】)
(b)前記音響特徴量DNNは、学習時に、音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われるものであり、(【0029】)
(b1)学習のための音素フレームの言語特徴量は、例えば、音素の言語特徴量と同様の音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等に加え、音素を構成するフレームの番号(フレームの位置)、音素を構成するフレームの総数等の情報からなり、音素フレームの音響特徴量は、例えば、スペクトル係数、雑音性係数、ピッチ、有声/無声判定等の情報からなり、(【0030】)
(c)音声合成時には、前記音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力され、(【0031】)
(d)前記合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えており、(【0071】)
(e)前記話者感情ラベル処理部22は、話者情報及び感情情報を入力し、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与するものであり、(【0075】)

(f)前記話者情報は、個々の発話者を識別するための情報であり、感情情報は、例えば喜び、怒り、悲哀、平静等の発話表現を識別するための情報であり、(【0021】)
(g)前記音素フレームの言語特徴量は、事前学習のための音素の言語特徴量の各種情報に加え、音素フレームを特定するための情報からなり、例えば「音素ラベル」「有声音の有無」「アクセントの位置」「フレームの番号」「フレームの総数」等の情報からなり、(【0040】)

(h)合成処理部5の処理について、(【0083】)
(h1)話者感情ラベル処理部22は、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、(【0084】)
(h2)時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する(【0086】)

(i)音声合成装置1における処理方法。

2-2 甲第2号証について
(1)甲第2号証の記載事項
甲第2号証には次の記載がある。

「【技術分野】
【0001】
実施形態は、ここで一般的に記述されているように、テキスト読み上げシステム及び方法に関する。」

「【0006】
実施形態において、選択された話者の声及び選択された話者の属性を持つ音声を出力するように構成された方法が提供される。上記方法は、テキストを入力することと、入力された上記テキストを音響単位の系列へと分割することと、入力テキストの話者を選択することと、上記入力テキストの話者属性を選択することと、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換することと、上記選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力することとを具備する。上記音響モデルは、話者の声に関連する第1のパラメータ・セットと、話者属性に関連する第2のパラメータ・セットとを備える。第1及び第2のパラメータ・セットは重複しない。話者の声を選択することは、話者の声を与えるパラメータを第1のパラメータ・セットから選択することを備える。話者属性を選択することは、選択された話者属性を与えるパラメータを第2のセットから選択することを備える。」

「【0012】
更なる実施形態において、音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備えており、第1及び第2のパラメータ・セットの選択は上記確率分布を変形する。一般に、これらの確率密度関数はガウシアンと呼ばれ、平均及び分散によって記述される。しかしながら、他の確率分布関数も可能である。
【0013】
更なる実施形態において、話者の声及び属性の制御は上記確率分布の平均の重み付き和を通じて達成され、第1及び第2のパラメータ・セットの選択は使用される重み及びオフセットを制御する。例えば、次の通りである。」

「【0036】
更なる実施形態において、テキスト読み上げシステム用の音響モデルをトレーニングする方法が提供され、上記音響モデルは音響単位の系列を音声ベクトルの系列へと変換する。上記方法は、様々な属性を伴って話している複数の話者から音声データを受け取ることと、受け取られた音声データから共通の属性を伴って話している話者に関連する音声データを分離(isolate)することと、共通の属性を伴って話している複数の話者から受け取られた音声データを用いて第1の音響サブモデルをトレーニングすること(上記トレーニングすることは第1のパラメータ・セットを導出することを備え、上記第1のパラメータ・セットは音響モデルを複数の話者の音声に適応させるために変更される)と、残余の音声から第2の音響サブモデルをトレーニングすること(上記トレーニングすることは上記残余の音声から複数の属性を識別することと第2のパラメータ・セットを導出することとを備え、上記第2のパラメータ・セットは音響モデルを複数の属性の音声に適応させるために変更される)と、合成された音響モデルが話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備えるように第1及び第2の音響サブモデルを合成することによって音響モデルを出力することとを具備する。第1及び第2のパラメータ・セットは重複しない。話者の声を選択することは、第1のパラメータ・セットから話者の声を与えるパラメータを選択することを備える。話者属性を選択することは、第2のパラメータから選択された話者属性を与えるパラメータを選択することを備える。」

「【0047】
簡略化された処理が、図2を参照してこれから記述される。最初のステップ(S101)において、テキストが入力される。テキストは、キーボード、タッチスクリーン、テキスト予測器(predictor)などを介して入力されてよい。テキストは、それから、音響単位の系列へと変換される。これらの音響単位は、音素であってもよいし、書記素であってもよい。単位は、コンテキスト依存(例えば、選択された音素だけでなく前後の音素を考慮に入れるトライフォン(triphone))であってもよい。テキストは、技術分野において周知であるがここではこれ以上説明されない技術を用いて、音響単位の系列へと変換される。」

「【0052】
これらのパラメータは、それから、ステップS107において音響モデルの中で使用される。この記述において、音響モデルは隠れマルコフモデル(HMM)である。しかしながら、他のモデルも使用可能である。」

「【0059】
ステップS206において、声に使用される話者属性が選択される。話者属性は、多数の様々なカテゴリから選択されてよい。例えば、カテゴリは、感情、訛りなどから選択されてよい。実施形態に従う方法において、属性は、幸福、悲しい、怒っている、などであってよい。」

「【0061】
いくつかの実施形態において、ガウシアンを用いてそれぞれモデル化される複数の様々な状態がある。例えば、実施形態において、テキスト読み上げシステムは、多数のストリーム(stream)を備える。係るストリームは、スペクトルパラメータ(スペクトル)、基本周波数の対数(対数F_(0))、対数F_(0)の一次微分(デルタ対数F_(0))、対数F_(0)の二次微分(デルタ-デルタ対数F_(0))、帯域非周期性パラメータ、持続期間のうちの1つ以上から選択されてよい。ストリームは、無音(sil)、短休止(pau)及び音声(spe)などのクラスへと更に分割されてもよい。実施形態において、ストリーム及びクラスの各々からのデータは、HMMを用いてモデル化される。HMMは様々な数の状態を備えてよく、例えば、実施形態において5状態HMMが上記ストリーム及びクラスのうちいくつかからのデータをモデル化するために使用されてよい。ガウシアンコンポーネントは、HMM状態毎に決定される。」

「【0198】
図15は、ニュートラルな感情を伴う新たな話者に適応するシステムの一例を示す。最初に、入力目標話音声がステップ501において受け取られる。次に、ステップS503において、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される。」

「【0205】
図17は、話者の声及び属性がどのように関連付けられるかを視覚化するのに役立つプロットを示す。図17のプロットは、3次元で示されているが、より高い次元順へ拡張可能である。
【0206】
話者は、z軸に沿ってプロットされる。この簡略化されたプロットにおいて話者重み付けは1次元として定義されるが、実際には、対応する数の軸上で表現される2以上の話者重み付けがありそうである。
【0207】
表現は、x-y平面上で表現される。x軸に沿った表現1及びy軸に沿った表現2を用いて、怒っている及び悲しいに対応する重み付けが示されている。この配置を用いると、「怒っている」話者a及び「悲しい」話者bに必要とされる重み付けを生成することが可能である。新たな感情または属性に対応するx-y平面上の点を導出することによって、新たな感情または属性が既存の話者にどのように適用できるのかを理解できる。」

(2)甲2発明
上記(1)の記載事項から、甲第2号証には、以下の発明(以下、「甲2発明」という。)が記載されている。
ここで、甲2発明の各構成には、(j)?(s)の符号を当審において付した。以下、構成j?構成sという。
また、各構成の末尾に対応する記載事項の段落番号を付した。

〔甲2発明〕
(j)選択された話者の声及び選択された話者の属性を持つ音声を出力するように構成された方法であって、(【0006】)
(k)テキストを入力することと、入力された上記テキストを音響単位の系列へと分割することと、入力テキストの話者を選択することと、上記入力テキストの話者属性を選択することと、音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換することと、上記選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力することとを具備するものであり、(【0006】)
(l)音響単位は、音素であり、(【0047】)
(m)上記音響モデルは、話者の声に関連する第1のパラメータ・セットと、話者属性に関連する第2のパラメータ・セットとを備え、(【0006】)
(n)話者の声を選択することは、話者の声を与えるパラメータを第1のパラメータ・セットから選択することを備え、話者属性を選択することは、選択された話者属性を与えるパラメータを第2のセットから選択することを備え、(【0006】)

(o)音響モデルは隠れマルコフモデル(HMM)であり、他のモデルも使用可能であり、(【0052】)
(o1)音響モデルは音響単位を音声ベクトルの系列に関連付ける確率分布関数を備えており、これらの確率密度関数は平均及び分散によって記述されるものであり、(【0012】)
(o2)話者の声及び属性の制御は上記確率分布の平均の重み付き和を通じて達成され、第1及び第2のパラメータ・セットの選択は使用される重み及びオフセットを制御するものであり、(【0013】)
(o3)スペクトルパラメータ(スペクトル)、基本周波数の対数(対数F_(0))のストリームからのデータは、HMMを用いてモデル化され、(【0061】)

(p)話者属性は、感情、訛り、幸福、悲しい、怒っている、などであり、(【0059】)

(q)テキスト読み上げシステム用の音響モデルをトレーニングする方法は、共通の属性を伴って話している複数の話者から受け取られた音声データを用いて第1の音響サブモデルをトレーニングすること(上記トレーニングすることは第1のパラメータ・セットを導出することを備え、上記第1のパラメータ・セットは音響モデルを複数の話者の音声に適応させるために変更される)と、残余の音声から第2の音響サブモデルをトレーニングすること(上記トレーニングすることは上記残余の音声から複数の属性を識別することと第2のパラメータ・セットを導出することとを備え、上記第2のパラメータ・セットは音響モデルを複数の属性の音声に適応させるために変更される)と、合成された音響モデルが話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備えるように第1及び第2の音響サブモデルを合成することによって音響モデルを出力することとを具備するものであり、(【0036】)

(r)ニュートラルな感情を伴う新たな話者に適応するシステムは、最初に、入力目標話音声が受け取られ、次に、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整されるものであり、(【0198】)

(s)話者の声及び属性がどのように関連付けられるかを視覚化するのに役立つプロットにおいて、話者はz軸に沿ってプロットされ、実際には、対応する数の軸上で表現される2以上の話者重み付けがあり、表現はx-y平面上で表現され、x軸に沿った表現1及びy軸に沿った表現2を用いて、怒っている及び悲しいに対応する重み付けが示される(【0205】?【0207】)

(j)方法。

2-3 甲第3号証について
(1)甲第3号証の記載事項
甲第3号証には次の記載がある。

「ABSTRACT
This paper proposes an HMM-based speech synthesis technique without any manual labeling of accent information for a target speaker's training data. To appropriately model the fundamental frequency (F0) feature of speech, the proposed technique uses coarsely quantized F0 symbols instead of accent types for the context-dependent labeling. By using F0 quantization, we can automatically conduct the labeling of F0 contexts for training data. When synthesizing speech, an average voice model trained in advance using manually labeled multiple speakers' speech data including accent information is used to create the label sequence for synthesis. Specifically, the input text is converted to a full context label sequence, and an F0 contour is generated from the label sequence and the average voice model. Then, a label sequence including the quantized F0 symbols is created from the generated F0 contour. We conduct objective and subjective evaluation tests, and discuss the results.」(4622頁左欄1?17行)
(仮訳:本論文は、ターゲット話者の学習データへの人手によるアクセント情報のラベリングを必要としないHMMに基づく音声合成技術を提案する。音声の基本周波数(F0)特徴を適切にモデル化するために、提案技術は、コンテキスト依存ラベリングのためのアクセント型に代えて、粗量子化されたF0シンボルを用いる。F0量子化を用いることにより、学習データへのF0コンテキストのラベリングを自動化できる。音声合成時には、合成のためのラベル系列を生成するために、アクセント情報を含む人手でラベルが付された複数話者の音声データを用いて事前に学習された平均的な音声モデルを用いることができる。特に、入力テキストがフルコンテキストラベル系列に変換され、F0パターンがラベル系列と平均音声モデルから生成される。その後、生成されたF0パターンから、量子化F0シンボルを含むラベル系列が生成される。客観的及び主観的な評価テストを行い、結果について検討する。)

「In the model training, we apply F0 quantization to the target speaker's training data, and use the quantized F0 symbol as the context. Specifically, in the labeling procedure, the mean log F0 value of each phone is calculated for the training data of F0. Then, this value is quantized into a discrete value after normalizing the F0 distribution, and the quantized F0 symbol is used as an accentual context.」(4622頁右欄2?8行)
(仮訳:モデル学習においては、対象話者の学習データに基本周波数(F0)量子化を適用し、量子化したF0シンボルをコンテキストとして利用する。具体的には、ラベリング処理において、各音韻の対数F0の平均値がF0の学習データに対して算出される。その後、この値は、F0分布の正規化後、離散値に量子化され、量子化されたF0シンボルがアクセント型コンテキストとして用いられる。)

「When synthesizing speech, we must convert a given text into a context-dependent label sequence. To automatically give the accentual context, i.e., F0 symbols in our case, we use a generated F0 pattern from a prepared average voice model [2], which is an acoustic model trained using multiple speakers' manually labeled speech data including accent information. Finally, the synthetic speech is generated from the context-dependent label sequence using the target speaker's model.」(4622頁右欄8?15行)
(仮訳:音声の合成時、所定のテキストをコンテキスト依存のラベル系列へ変換する必要がある。自動的にアクセント型コンテキストを与えるために、つまり、我々のケースではF0シンボルであるが、アクセント情報を含む、人手によりラベル化された、複数の話者の音声データを用いて学習された音響モデルである、準備された平均音声モデル[2]から生成されたF0パターンを用いる。最後に、対象話者のモデルを用いて、コンテキスト依存のラベル系列から合成音声が生成される。)

「To overcome the difficulty, here we utilize F0 sequences generated from an average voice model [2]. Specifically, we first train the average voice model with a sufficient amount of speech data of multiple speakers using full context labels.」(4623頁右欄13?17行)
(仮訳:本書において、困難を克服するために、平均音声モデル[2]から生成されたF0系列を利用する。具体的には、まず、フルコンテキストラベルを用いて、複数の話者の十分な量の音声データで平均音声モデルを学習させる。)

(2)甲3技術
上記(1)の記載事項から、甲第3号証には、以下の技術(以下、「甲3技術」という。)が記載されている。

〔甲3技術〕
ターゲット話者の学習データへの人手によるアクセント情報のラベリングを必要としないHMMに基づく音声合成技術であって、
モデル学習においては、対象話者の学習データに基本周波数(F0)量子化を適用し、量子化したF0シンボルをコンテキストとして利用し、
アクセント情報を含む、人手によりラベル化された、複数の話者の音声データを用いて学習された音響モデルである、準備された平均音声モデルから生成されたF0パターンを用い、
具体的には、まず、フルコンテキストラベルを用いて、複数の話者の十分な量の音声データで平均音声モデルを学習させる技術。

2-4 甲第4号証について
(1)甲第4号証の記載事項
甲第4号証には次の記載がある。
「【技術分野】
【0001】
この発明は、音声合成技術に関し、特に、音声データから音声合成モデルを学習する技術に関する。」

「【発明を実施するための形態】
【0012】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
<音声合成モデルの学習>
第一実施形態の音声合成モデル学習装置は、音声データおよび発話情報を用いてF0の量子化を行い、音声データおよび発話情報から量子化F0を考慮した音声合成モデル(HMM)を学習する。」

「【0030】
<音声合成>
第一実施形態の音声合成装置は、音声合成モデル学習装置で得られた量子化F0を考慮した音声合成モデルを用いて、合成対象の音素、F0、および音素継続時間長等から合成音声を生成する。」

「【0034】
図14を参照して、第一実施形態の音声合成方法の処理手続きを説明する。
【0035】
ステップS21において、量子化F0取得部21は、入力された合成対象の読み(音素等)、韻律情報(F0、音素継続時間長等)から、量子化情報記憶部14に記憶された量子化情報を用いて、合成対象の各音素に対応する量子化F0情報を得る。入力として使用する合成対象の音素、F0、および音素継続時間長等は、例えば、テキスト音声合成を行う場合は、音声合成の過程でテキスト解析の結果得られる読み(音素)やアクセント情報等から韻律モデルを用いて生成されたものを使用する(非特許文献2参照)。なお、韻律モデルについては非特許文献1に記載されている。もしくは、公知の手法により自然音声(肉声)から抽出したF0、音素、および音素継続時間長等を用いてもよい。自然音声からF0、音素、および音素継続時間長等を抽出する手法は、例えば、「特許第3292218号公報(参考文献3)」に記載されている。
【0036】
ステップS22において、スペクトル生成部22は、量子化F0取得部21により得られた各音素の量子化F0情報と合成対象の音素とを用いて、音声合成に利用するためのコンテキスト依存ラベルを得、音声合成モデル記憶部17に記憶された音声合成モデル、コンテキスト依存ラベル、および入力された音素継続時間長を用いて音声パラメータ(スペクトル)を生成する。コンテキスト依存ラベルについての詳細は、例えば、非特許文献2を参照されたい。コンテキスト依存ラベルは、量子化F0情報と合成対象の音素、F0、および音素継続時間長等から生成することができる。音声パラメータ(スペクトル)の生成方法は、例えば、非特許文献1を参照されたい。」

(2)甲4技術
上記(1)の記載事項から、甲第4号証には、以下の技術(以下、「甲4技術」という。)が記載されている。

〔甲4技術〕
音声データおよび発話情報を用いてF0の量子化を行い、音声データおよび発話情報から量子化F0を考慮した音声合成モデル(HMM)を学習し、
得られた量子化F0を考慮した音声合成モデルを用いて、合成対象の音素、F0、および音素継続時間長等から合成音声を生成する技術であって、
入力された合成対象の読み(音素等)、韻律情報(F0、音素継続時間長等)から、記憶された量子化情報を用いて、合成対象の各音素に対応する量子化F0情報を得、
得られた各音素の量子化F0情報と合成対象の音素とを用いて、音声合成に利用するためのコンテキスト依存ラベルを得、音声合成モデル、コンテキスト依存ラベル、および入力された音素継続時間長を用いて音声パラメータ(スペクトル)を生成する技術。

2-5 甲第5号証について
(1)甲第5号証の記載事項
甲第5号証には次の記載がある。

「【技術分野】
【0001】
本発明の実施形態は、韻律編集装置、方法およびプログラムに関する。」

「【0009】
音声合成部101は、外部からテキストを入力し、韻律や合成音を生成する。韻律の生成には、例えば統計的韻律モデルが用いられる。音声合成の方式には、一般的に知られている素片接続型音声合成や隠れマルコフモデル音声合成など、任意の方式を採用することができる。また、音声合成部101は、ユーザの操作により編集された韻律(後述する更新された近似軌跡)を入力とし、その韻律を適用した合成音を生成することもできる。音声合成部101が生成した合成音は、スピーカ110から出力される。
【0010】
音声の韻律を表す韻律情報(計算機で扱えるパラメータ)としては、基本周波数(F0)、音素の継続時間長、パワーなどがある。F0は、横軸を時間、縦軸を周波数としたときに、その時系列を線で表すことができる。このような線で表されるF0の時系列をF0軌跡と呼ぶ。F0軌跡を編集することで、様々なイントネーションを持った合成音を生成できる。
【0011】
以下では、音声合成部101が生成したF0軌跡を編集の対象とする場合について説明する。ただし、編集の対象となる韻律情報はF0軌跡に限定されるものではない。本実施形態の韻律編集方法は、線(軌跡)で表すことができる韻律情報の時系列に対して広く適用できる。例えば、音素の継続時間長は、横軸を音素の発生時間、縦軸を時間長としたときに、その時系列を線(軌跡)で表すことができる。また、パワーは、横軸を時間、縦軸をパワーの大きさとしたときに、その時系列を線(軌跡)で表すことができる。本実施形態は、これら音素の継続時間長の時系列やパワーの時系列を編集する場合にも同様に適用できる。」

(2)甲5技術
上記(1)の記載事項から、甲第5号証には、以下の技術(以下、「甲5技術」という。)が記載されている。

〔甲5技術〕
音声合成部101は、外部からテキストを入力し、韻律や合成音を生成するものであり、
音声合成の方式には、一般的に知られている素片接続型音声合成や隠れマルコフモデル音声合成など、任意の方式を採用することができ、
音声合成部101は、ユーザの操作により編集された韻律を入力とし、その韻律を適用した合成音を生成することもでき、
音声の韻律を表す韻律情報としては、基本周波数(F0)があり、
F0の時系列をF0軌跡と呼び、F0軌跡を編集することで、様々なイントネーションを持った合成音を生成でき、
音声合成部101が生成したF0軌跡を編集の対象とする
韻律編集方法に係る技術。

3 当審の判断
(1)本件訂正発明6について
(1-1)甲第1号証を主引例、甲第2号証を副引例とした場合について
ア 対比
本件訂正発明6と甲1発明とを対比する。

(ア)構成Aについて
構成Aの「合成モデル」について、本願明細書には「合成処理部21は、合成音の音響的な特徴を表す特徴データQの時系列を生成する。」(段落0016)、「合成処理部21による特徴データQの生成に合成モデルMが利用される。」(段落0018)及び「合成モデルMは、入力データZと特徴データQとの関係を学習した統計的予測モデルである。第1実施形態の合成モデルMは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。」(段落0019)と記載されており、入力データと合成音の音響的な特徴を表す特徴データとの関係を学習したDNNが含まれる。
一方、甲1発明の「音響特徴量DNN」は、構成bの「音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われるもの」及び構成cの「音声合成時には、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力され」るものである。
すると、前記構成を備えた甲1発明の「音響特徴量DNN」は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを入力データとして音素フレームの音響特徴量との関係を学習するものであり、構成Aの上記「合成モデル」に含まれる「入力データと合成音の音響的な特徴を表す特徴データとの関係を学習したDNN」といえるものであるから、構成Aの「機械学習により生成された合成モデル」に相当する。

構成Aの「発音源を表す発音源データ」について、本願明細書の段落0063には「歌唱者データXaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。」と記載されており、発音源を表す発音源データには発話者を表すデータも含まれる。
すると、甲1発明の「個々の発話者を識別するための情報」である「話者情報」(構成f)に付与される「話者ラベル」(構成e、構成h1)は、構成Aの上記「発音源を表す発音源データ」に含まれる「発話者を表すデータ」といえるものであるから、構成Aの「発音源を表す発音源データ」に相当する。

構成Aの「発音スタイルを表すスタイルデータ」について、本願明細書の段落0063には「スタイルデータXbは、歌唱スタイルのほかに発話スタイルまたは演奏スタイル等を含む発音スタイルを表すデータとして包括的に表現される。」と記載されており、発音スタイルを表すスタイルデータには発話スタイルを表すデータも含まれる。
すると、甲1発明の「例えば喜び、怒り、悲哀、平静等の発話表現を識別するための情報」である「感情情報」(構成f)に付与される「感情ラベル」(構成e、構成h1)は、構成Aの上記「発音スタイルを表すスタイルデータ」に含まれる「発話スタイルを表すデータ」といえるものであるから、構成Aの「発音スタイルを表すスタイルデータ」に相当する。

構成Aの「発音条件を表す合成データ」について、本願明細書の段落0063には「合成データXcは、歌唱条件のほかに発話条件(例えば音韻)または演奏条件(例えば音高および音量)を含む発音条件を表すデータとして包括的に表現される。」と記載されており、発音条件を表す合成データには発話条件(例えば音韻)を表すデータも含まれる。
すると、甲1発明の「事前学習のための音素の言語特徴量の各種情報に加え、音素フレームを特定するための情報からなり、例えば「音素ラベル」「有声音の有無」「アクセントの位置」「フレームの番号」「フレームの総数」等の情報からなる」「音素フレームの言語特徴量」(構成g)は、構成Aの上記「発音条件を表す合成データ」に含まれる「発話条件(例えば音韻)を表すデータ」といえるものであるから、構成Aの「発音条件を表す合成データ」に相当する。

そして、甲1発明は、構成cによれば「音声合成時には、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力され」るものであり、構成h及び構成h2において「合成処理部5の処理について」「時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する」ものであって、前記「音素フレームの音響特徴量」は構成Aの「発音源が発音すべき合成音の音響的な特徴を表す特徴データ」に対応するから、本件訂正発明6と甲1発明は、「発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法」である点で一致する。

以上のとおり、本件訂正発明6と甲1発明は、構成Aを備える点で一致する。

(イ)構成B、構成Cについて
甲1発明の「音響特徴量DNN」は、音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われるもの(構成b、構成b1)であるから、本件訂正発明6と甲1発明は、「合成モデルを更新する」ものである点で共通する。

しかしながら、合成モデルの更新が、本件訂正発明6では、「新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し」(構成B)、「前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する」(構成C)というものであるのに対し、甲1発明では、「音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われる」というものである点で、両者は相違する。

(ウ)一致点及び相違点
上記(ア)、(イ)から、本件訂正発明6と甲1発明との間の一致点及び相違点は、以下のとおりである。

〔一致点〕
(A)発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記情報処理方法は、さらに、
(C’)前記合成モデルを更新する
(A)情報処理方法。

〔相違点1〕
合成モデルの更新が、本件訂正発明6では、「新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し」(構成B)、「前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する」(構成C)というものであるのに対し、甲1発明では、「音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われる」というものである点。

イ 判断
上記相違点1について検討する。

甲2発明は、ニュートラルな感情を伴う新たな話者に適応する場合に、最初に、入力目標話音声が受け取られ、次に、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される構成(構成r)を備えるものである。
しかしながら、当該構成は、新たな話者についてモデルの重み付けを調整すること、すなわち新規発音源についてモデルを更新するものといえるが、新たな話者(新規発音源)のデータ(モデルに入力されるデータ)まで更新するものではない。

したがって、甲1発明における合成モデルの更新において、新たな話者(新規発音源)のデータの更新を行うこと、すなわち、本件訂正発明6の相違点1に係る構成を採用することは、当業者が甲2発明に基づき容易に想到し得るとはいえない。

(1-2)甲第2号証を主引例、甲第1号証を副引例とした場合について
ア 対比
本件訂正発明6と甲2発明とを対比する。

(ア)構成Aについて
上記(1-1)ア(ア)のとおり、構成Aの「合成モデル」には、入力データと合成音の音響的な特徴を表す特徴データとの関係を学習した統計的予測モデルが含まれる。
一方、甲2発明の「隠れマルコフモデル(HMM)」(構成o)は、「音響単位を音声ベクトルの系列に関連付ける確率分布関数を備え、これらの確率密度関数は平均及び分散によって記述される」(構成o1)ものであり、音響モデルは「トレーニング」(構成q)されるものであるから、構成Aの上記「合成モデル」に含まれる「学習した統計的予測モデル」といえる。
また、甲2発明は、「選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力する」(構成k)から、HMMに対して話者の声及び話者属性の選択に係る入力が行われるものといえ、当該入力は、構成Aの「入力データ」に相当するものである。
さらに、前記HMMにより関連付けられる「音声ベクトルの系列」である「HMMを用いてモデル化され」る「スペクトルパラメータ(スペクトル)、基本周波数の対数(対数F0)のストリームからのデータ」(構成o3)は、構成Aの上記「合成モデル」により生成される「特徴データ」に相当するものである。
したがって、甲2発明の「隠れマルコフモデル(HMM)」は、構成Aの上記「合成モデル」に含まれる「入力データと特徴データとの関係を学習した統計的予測モデル」といえるものであり、構成Aの「機械学習により生成された合成モデル」に相当する。

上記(1-1)ア(ア)のとおり、構成Aの「発音源を表す発音源データ」には、発話者を表すデータも含まれる。
すると、甲2発明の「話者の声を与えるパラメータ」(構成n)は、構成Aの上記「発音源を表す発音源データ」に含まれる「発話者を表すデータ」といえるものであるから、構成Aの「発音源を表す発音源データ」に相当する。

上記(1-1)ア(ア)のとおり、構成Aの「発音スタイルを表すスタイルデータ」には、発話スタイルを表すデータも含まれる。
すると、甲2発明の「話者属性」(構成k)である「感情、訛り、幸福、悲しい、怒っている、など」(構成p)は、構成Aの上記「発音スタイル」に含まれる「発話スタイル」といえるものであるから、甲2発明の「話者属性を与えるパラメータ」(構成n)は、構成Aの「発音スタイルを表すスタイルデータ」に相当する。

上記(1-1)ア(ア)のとおり、構成Aの「発音条件を表す合成データ」には、発音条件を表す合成データには発話条件(例えば音韻)を表すデータも含まれる。
一方、甲2発明の「音響単位」である「音素」(構成l)は、音声の構成要素であり、構成Aの上記「発音条件を表す合成データ」に含まれる「発話条件(例えば音韻)を表すデータ」といえるものであるから、構成Aの「発音条件を表す合成データ」に相当する。

甲2発明は、「音響単位」について「音響モデルを用い」る(構成k)ものであるから、「音響単位」は対応する「音響モデルを用い」るための「入力」といえるものである。
甲2発明は、「話者を選択すること」及び「話者属性を選択すること」(構成k)として、「音響モデル」に備わる「話者の声に関連する第1のパラメータ・セット」と「話者属性に関連する第2のパラメータ・セット」(構成m)から「話者の声を与えるパラメータ」(発音源を表す発音源データ)と「選択された話者属性を与えるパラメータ」(発音スタイルを表すスタイルデータ)がそれぞれ選択される(構成n)から、音響モデルに対して「話者の声を与えるパラメータ」(発音源を表す発音源データ)と「選択された話者属性を与えるパラメータ」(発音スタイルを表すスタイルデータ)に係る入力が行われるものといえる。

甲2発明は、「音響モデルを用いて上記音響単位の系列を音声ベクトルの系列へと変換」し、「上記選択された話者の声及び選択された話者属性を持つオーディオとして上記音声ベクトルの系列を出力する」(構成k)ものであるから、選択された話者の声(発音スタイル)及び選択された話者属性(発音条件)のもとで音響単位(発音源が発音すべき合成音)の音声ベクトル(音響的な特徴を表す特徴データ)を生成するものといえる。

以上から、本件訂正発明6と甲2発明は、「発音源を表す発音源データと発音スタイルを表すスタイルデータと、を機械学習により生成された合成モデルに入力し、発音条件を表す合成データを入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法」である点で共通する。

しかしながら、「発音条件を表す合成データを入力すること」が、本件訂正発明6では、合成モデルに入力することであるのに対し、甲2発明では、対応する合成モデルを用いることであって合成モデルに入力することではない点で、両者は相違する。

(イ)構成B、構成Cについて
甲2発明は、選択された話者の声及び選択された話者の属性を持つ音声を出力するように構成された方法であって、ニュートラルな感情を伴う新たな話者に適応する場合に、最初に、入力目標話音声が受け取られ、次に、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される構成(構成r)を備えるものである。

当該構成は、新たな話者についてクラスタの重み付けを調整すること、すなわち新規発音源についてモデルを更新するものといえるから、本件訂正発明6と甲2発明は、「合成モデルを更新する」ものである点で共通する。
しかしながら、当該更新は、新たな話者(新規発音源)のデータについて行うものではなく、更新が、本件訂正発明6では、「新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し」(構成B)、「前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する」(構成C)というものであるのに対し、甲2発明では、「最初に、入力目標話音声が受け取られ、次に、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される」というものである点で、両者は相違する。

(ウ)一致点及び相違点
上記(ア)、(イ)から、本件訂正発明6と甲2発明との間の一致点及び相違点は、以下のとおりである。

〔一致点〕
(A’)発音源を表す発音源データと発音スタイルを表すスタイルデータと、を機械学習により生成された合成モデルに入力し、発音条件を表す合成データを入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記情報処理方法は、さらに、
(C’)前記合成モデルを更新する
(A)情報処理方法。

〔相違点2A〕
「発音条件を表す合成データを入力すること」が、本件訂正発明6では、合成モデルに入力することであるのに対し、甲2発明では、対応する合成モデルを用いることであって合成モデルに入力することではない点。

〔相違点2B〕
更新が、本件訂正発明6では、「新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し」(構成B)、「前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する」(構成C)というものであるのに対し、甲2発明では、「最初に、入力目標話音声が受け取られ、次に、規範的モデルの重み付け、即ち、以前にトレーニングされたクラスタの重み付けが、目標の声に合致するよう調整される」というものである点。

イ 判断
上記相違点について検討する。

(ア)相違点2Aについて
(1-1)ア(ア)のとおり、甲1発明は、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量が与えられる(構成c)ものであるから、発音条件を表す合成データを機械学習により生成された合成モデルに入力するものである。
しかしながら、(1-2)ア(ア)のとおり、甲2発明は、合成モデルが「隠れマルコフモデル(HMM)」(構成o)であり、DNNに存在するような入力層が存在しないものであるから、DNNの入力層に入力する構成をHMMに適用すること、すなわち、発音条件を表す合成データに対応する合成モデルを用いるHMMである甲2発明において、前記甲1発明の発音条件を表す合成データを合成モデルに入力する構成を適用することは、当業者であってもおよそ想起できることとはいえない。
なお、甲2発明の音響モデルは、「他のモデルも使用可能」(構成o)とされているが、当該他のモデルについて何ら具体的な説明がなされていない。よって、甲2発明において、音響モデルをDNNに置き換え、さらに、当該置き換えられたDNNに対して前記甲1発明の発音条件を表す合成データを合成モデルに入力する構成を適用するという2段階の変更を行うことは、当業者であってもおよそ想起できることとはいえない。
したがって、本件訂正発明6の相違点2Aに係る構成を採用することは、当業者が甲1発明に基づき容易に想到し得るとはいえない。

(イ)相違点2Bについて
上記2-1、3(1)(1-1)ア(イ)のとおり、合成モデルの更新において新たな話者(新規発音源)のデータの更新を行う点は、甲第1号証に記載も示唆もされていない。

したがって、甲2発明における合成モデルの更新において、新たな話者(新規発音源)のデータの更新を行うこと、すなわち、本件訂正発明6の相違点2Bに係る構成を採用することは、当業者が甲1発明に基づき容易に想到し得るとはいえない。

(1-3)本件訂正発明6についてのまとめ
以上のとおり、本件訂正発明6は、甲第1号証及び甲第2号証の何れを主引例とした場合であっても、当業者が容易に発明をすることができたものとはいえない。

(2)本件訂正発明7について
(2-1)甲第1号証を主引例、甲第2号証を副引例とした場合について
ア 対比
本件訂正発明7と甲1発明とを対比する。

(ア)構成Aについて
上記(1)(1-1)(ア)と同様の理由により、本件訂正発明7と甲1発明は、構成Aを備える点で一致する。

(イ)構成D、構成Eについて
上記(1)(1-1)(ア)のとおり、甲1発明の「話者ラベル」及び「感情ラベル」(構成c)は、構成Aの「発音源を表す発音源データ」及び「発音スタイルを表すスタイルデータ」にそれぞれ相当する。
しかしながら、発音源データ及びスタイルデータが、本件訂正発明7ではそれぞれ「相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表」すもの、及び、「相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す」ものであるのに対し、甲1発明ではラベルである点で、両者は相違する。

イ 判断
上記相違点について検討する。
甲2発明は、話者の声及び属性が複数の重み付けで表現される(構成s)ものであるから、話者の声及び話者属性を与える「パラメータ」(構成n)は、多次元のベクトルの表現を備えるものといえる。
しかしながら、上記パラメータは、平均及び分散によって記述される確率密度関数を備えた隠れマルコフモデル(HMM)(構成o、構成o1)において、上記確率分布の平均の重み付き和に対して、重み及びオフセットを決定する(構成o2、構成n)ものであるのに対し、甲1発明の話者ラベル及び感情ラベルは、前記HMMのような平均及び分散によって記述される確率密度関数を備えていないDNNの入力層に与えられるものであるから、入力後の処理が相違する一方の入力データを他方の入力データに適用すること、すなわち、甲2発明のパラメータの構成を甲1発明の入力に適用しようとすることは、当業者であってもおよそ想定され得るものとはいえない。
したがって、甲1発明の「話者ラベル」及び「感情ラベル」をそれぞれ「相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表」すもの、及び、「相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す」ものとすること、すなわち、本件訂正発明7の相違点に係る構成を採用することは、当業者が甲2発明に基づき容易に想到し得るとはいえない。

なお、甲2発明の音響モデルは、「他のモデルも使用可能」(構成o)とされているが、当該他のモデルについて何ら具体的な説明がなされていない。よって、甲2発明において、音響モデルをDNNに置き換え、さらに、当該置き換えられたDNNに対して本件訂正発明7の相違点に係る構成を採用することは、当業者が甲2発明に基づき容易に想到し得るとはいえない。

したがって、本件訂正発明7は、甲第1号証及び甲第2号証に基づき当業者が容易に発明をすることができたものとはいえない。

(2-2)甲第2号証を主引例、甲第1号証を副引例とした場合について
本件訂正発明7は、構成Aを備えるから、上記(1-2)アのとおり、本件訂正発明7と甲2発明は、上記構成Aに係る相違点2Aと同様の相違点を有する。
そして、上記(1-2)イのとおり、相違点2Aに係る本件訂正発明6の構成Aの構成は、当業者が容易に想到し得るとはいえないから、相違点2Aと同様の相違点に係る本件訂正発明7の構成Aの構成も、当業者が容易に想到し得るとはいえない。

したがって、本件訂正発明7は、構成D及び構成Eについて対比、判断するまでもなく、甲第2号証及び甲第1号証に基づき当業者が容易に発明をすることができたものとはいえない。

(2-3)本件訂正発明7についてのまとめ
以上のとおり、本件訂正発明7は、甲第1号証及び甲第2号証の何れを主引例とした場合であっても、当業者が容易に発明をすることができたものとはいえない。

(3)本件訂正発明8について
(3-1)甲第1号証を主引例、甲第2号証、甲第3号証及び甲第4号証を副引例とした場合について
ア 対比
本件訂正発明8と甲1発明とを対比する。

(ア)構成Aについて
上記(1)(1-1)(ア)と同様の理由により、本件訂正発明8と甲1発明は、構成Aを備える点で一致する。

(イ)構成Fについて
甲1発明は、構成Fを備えていない点で、本件訂正発明8と相違する。

イ 判断
上記相違点について検討する。
合成モデルが「合成音の基本周波数の時系列を生成する第1生成モデル」及び「前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデル」という2つのモデルで構成されることは、甲第2号証、甲第3号証及び甲第4号証のいずれにも記載も示唆もされていない。

したがって、本件訂正発明8は、甲第1号証、甲第2号証、甲第3号証及び甲第4号証に基づき当業者が容易に発明をすることができたものとはいえない。

(3-2)甲第2号証を主引例、甲第1号証、甲第3号証、甲第4号証を副引例とした場合について
本件訂正発明8は、構成Aを備えるから、上記(1-2)アのとおり、本件訂正発明8と甲2発明は、上記構成Aに係る相違点2Aと同様の相違点を有する。
そして、上記(1-2)イのとおり、相違点2Aに係る本件訂正発明6の構成Aの構成は、当業者が容易に想到し得るとはいえないから、相違点2Aに係る本件訂正発明8の構成Aの構成も、当業者が容易に想到し得るとはいえない。

また、甲2発明は、構成Fを備えていない点でも、本件訂正発明8と相違するものであり、合成モデルが「合成音の基本周波数の時系列を生成する第1生成モデル」及び「前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデル」という2つのモデルで構成されることは、甲第1号証、甲第3号証及び甲第4号証のいずれにも記載も示唆もされていないから、甲2発明において構成Fを設けることは、当業者が甲第1号証、甲第3号証及び甲第4号証に基づき容易に想到し得るとはいえない。

以上から、本件訂正発明8は、甲第2号証、甲第1号証、甲第3号証及び甲第4号証に基づき当業者が容易に発明をすることができたものとはいえない。

(3-3)本件訂正発明8についてのまとめ
以上のとおり、本件訂正発明8は、甲第1号証及び甲第2号証の何れを主引例とした場合であっても、当業者が容易に発明をすることができたものとはいえない。

(4)本件訂正発明9について
本件訂正発明9は、本件訂正発明8を引用するものであるから、上記(3)と同様の理由により、本件訂正発明9は、当業者が容易に発明をすることができたものとはいえない。

したがって、本件訂正発明9は、甲第1号証及び甲第2号証の何れを主引例とした場合であっても、当業者が容易に発明をすることができたものとはいえない。

第6 むすび
以上のとおりであるから、特許異議申立書に記載された特許異議申立理由によっては、本件訂正請求により訂正された訂正後の請求項6?9に係る特許を取り消すことはできない。
また、他に本件訂正請求により訂正された訂正後の請求項6?9に係る特許を取り消すべき理由を発見しない。

請求項1、3?5に係る発明は、上記のとおり、訂正により削除された。これにより、請求項1、3?5に係る特許異議の申立ては、申立ての対象が存在しないものとなったため、特許法第120条の8第1項で準用する同法第135条の規定により却下する。

よって、結論のとおり決定する。
 
発明の名称 (57)【特許請求の範囲】
【請求項1】(削除)
【請求項2】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記発音条件は、音符毎の音高を含む
情報処理方法。
【請求項3】(削除)
【請求項4】(削除)
【請求項5】(削除)
【請求項6】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記情報処理方法は、さらに、
新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
情報処理方法。
【請求項7】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。
【請求項8】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、コンピュータにより実現される情報処理方法であって、
前記合成モデルは、
前記合成音の基本周波数の時系列を生成する第1生成モデルと、
前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデルとを含む
情報処理方法。
【請求項9】
前記情報処理方法は、さらに、
前記第1生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、
前記第2生成モデルは、前記編集後の基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する
請求項8の情報処理方法。
【請求項10】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
を具備する情報処理システム。
【請求項11】
発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラム。
 
訂正の要旨 審決(決定)の【理由】欄参照。
異議決定日 2021-09-27 
出願番号 特願2018-209288(P2018-209288)
審決分類 P 1 652・ 121- YAA (G10L)
最終処分 維持  
前審関与審査官 大野 弘  
特許庁審判長 五十嵐 努
特許庁審判官 川崎 優
樫本 剛
登録日 2020-08-11 
登録番号 特許第6747489号(P6747489)
権利者 ヤマハ株式会社
発明の名称 情報処理方法、情報処理システムおよびプログラム  
代理人 特許業務法人旺知国際特許事務所  
代理人 特許業務法人旺知国際特許事務所  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ