• ポートフォリオ機能


ポートフォリオを新規に作成して保存
既存のポートフォリオに追加保存

  • この表をプリントする
PDF PDFをダウンロード
審決分類 審判 査定不服 2項進歩性 取り消して特許、登録 G16C
管理番号 1387424
総通号数
発行国 JP 
公報種別 特許審決公報 
発行日 2022-08-26 
種別 拒絶査定不服の審決 
審判請求日 2022-02-25 
確定日 2022-07-04 
事件の表示 特願2020−176322「統計シグナル推論モデルを生成するための方法、並びに、当該統計シグナル推論モデル用いて統計シグナルの推定値を得るための方法、システム及びプログラム」拒絶査定不服審判事件〔令和 4年 5月 6日出願公開、特開2022− 67563、請求項の数(9)〕について、次のとおり審決する。 
結論 原査定を取り消す。 本願の発明は、特許すべきものとする。 
理由 第1 手続きの経緯
本願は、令和2年10月20日の出願であって、その手続の経緯は以下のとおりである。
令和3年 2月 8日:拒絶理由通知書(起案日)
令和3年 4月 8日:意見書、手続補正書の提出
令和3年 7月 6日:拒絶理由通知書(起案日)
令和3年 9月 9日:意見書、手続補正書の提出
令和3年12月 6日:拒絶査定(起案日)
令和4年 2月25日:審判請求書、手続補正書の提出
令和4年 4月27日:前置報告書(起案日)
令和4年 5月24日:上申書の提出

第2 本願発明
令和4年2月25日に提出された手続補正書による特許請求の範囲の補正は、補正前の請求項4及び請求項9を削除する補正であるから、特許法第17条の2第3項及び同第4項に違反するものではなく、同第5項第1号に掲げる請求項の削除を目的とするものであり、適法なものである。
本願の請求項1〜9に係る発明(以下、それぞれを「本願発明1」〜「本願発明9」という。)は、令和4年2月25日に提出された手続補正書により補正された特許請求の範囲の請求項1〜9に記載された以下のとおりのものである。
「【請求項1】
複数の教師データを準備するステップであって、各教師データは、
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと、
当該医薬品及び当該有害事象に少なくとも関連した統計シグナルの実際値と
を含む、ステップと、
前記複数の教師データを用いた機械学習により、統計シグナル推論モデルを生成するステップであって、該統計シグナル推論モデルは、
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと
を少なくとも入力とし、
符号化したデータが入力された前記医薬品及び前記有害事象に少なくとも関連した前記統計シグナルの推定値
を出力とする、ステップと
を含む方法。
【請求項2】
請求項1に記載の方法であって、
各教師データは、層別条件を符号化したデータを更に含み、当該教師データに実際値が含まれる前記統計シグナルは、当該層別条件にも関連し、
前記統計シグナル推論モデルは、層別条件を符号化したデータを更に入力とし、当該入力に対して推定値が出力される前記統計シグナルは、当該層別条件にも関連した、
方法。
【請求項3】
請求項1に記載の方法であって、
各教師データに実際値が含まれる前記統計シグナルは、所定の層別条件にも関連し、
前記統計シグナル推論モデルにおいて推定値が出力される前記統計シグナルは、前記所定の層別条件にも関連した、
方法。
【請求項4】
請求項1から3のうちの何れか一項に記載の方法により生成された統計シグナル推論モデルであって、当該統計シグナル推論モデルの入力とされる前記データを入力として用いることにより、当該統計シグナル推論モデルの出力とされる前記統計シグナルの推定値を出力することをコンピュータに実行させる統計シグナル推論モデル。
【請求項5】
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと
を含む入力データを準備するステップと、
前記入力データを統計シグナル推論モデルへの入力として用いることにより、該統計シグナル推論モデルの出力として前記医薬品及び前記有害事象に少なくとも関連した統計シグナルの推定値を取得するステップと
をコンピュータに実行させるプログラムであって、前記統計シグナル推論モデルは、
様々な医薬品の化学構造式を符号化したデータと、
様々な有害事象を符号化したデータと、
各医薬品及び各有害事象に関連した前記統計シグナルの実際値と
を少なくとも用いた機械学習により生成されたものである、プログラム。
【請求項6】
請求項5に記載にプログラムであって、
前記入力データは、層別条件を符号化したデータを更に含み、
前記統計シグナル推論モデルから推定値が出力される前記統計シグナルは、前記層別条件にも関連し、
前記統計シグナル推論モデルを生成するための機械学習は、様々な層別条件を符号化したデータをも用い、
実際値が前記統計シグナル推論モデルを生成するための機械学習で用いられる前記統計シグナルは、各層別条件にも関連した、
プログラム。
【請求項7】
請求項5に記載のプログラムであって、
前記統計シグナル推論モデルから推定値が出力される前記統計シグナルは、所定の層別条件にも関連し、
実際値が前記統計シグナル推論モデルを生成するための機械学習で用いられる前記統計シグナルは、前記所定の層別条件にも関連した、
プログラム。
【請求項8】
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと
を含む入力データを、コンピュータが準備するステップと、
前記入力データを統計シグナル推論モデルへの入力として用いることにより、該統計シグナル推論モデルの出力として前記医薬品及び前記有害事象に少なくとも関連した統計シグナルの推定値を、コンピュータが取得するステップと
を含む方法であって、前記統計シグナル推論モデルは、
様々な医薬品の化学構造式を符号化したデータと、
様々な有害事象を符号化したデータと、
各医薬品及び各有害事象に関連した前記統計シグナルの実際値と
を少なくとも用いた機械学習により生成されたものである、方法。
【請求項9】
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと
を含む入力データを準備し、
前記入力データを統計シグナル推論モデルへの入力として用いることにより、該モデルの出力として前記医薬品及び前記有害事象に少なくとも関連した統計シグナルの推定値を取得する
ように構成されたシステムであって、前記統計シグナル推論モデルは、
様々な医薬品の化学構造式を符号化したデータと、
様々な有害事象を符号化したデータと、
各医薬品及び各有害事象に関連した前記統計シグナルの実際値と
を少なくとも用いた機械学習により生成されたものである、システム。」

第3 原査定の拒絶理由の概要
原査定(令和3年12月6日付け拒絶査定)の概要は次のとおりである。
本願の下記の請求項に係る発明は、下記の引用文献に記載された発明に基づいて、当業者が容易に発明をすることができたものであるから、特許法第29条第2項の規定により特許を受けることができない。
請求項1、4〜6、9〜11(補正後の請求項1、4、5、8、9)について
引用文献2、3
請求項2、3、7、8(補正後の請求項2、3、6、7)について
引用文献1〜3
引用文献1:データマイニング手法の検討を行うための支援業務 報告書,株式会社三菱総合研究所,2005年03月,p.1〜62
引用文献2:特開2020−035115号公報
引用文献3:米国特許出願公開第2013/0144636号明細書

第4 引用文献、引用発明
1 引用文献1について
原査定の拒絶の理由において引用された引用文献1(データマイニング手法の検討を行うための支援業務 報告書,株式会社三菱総合研究所,2005年03月,p.1〜62)には、次のとおりの技術的事項が記載されている。
医薬品副作用情報の分析にデータマイニングを適用したシグナル検出方法に関し、行に医薬品を列に副作用を取り、その報告件数を度数とした度数表(表2−7)を作成し、特定の医薬品と副作用に注目し、注目する医薬品とその他の医薬品、注目する副作用とその他の副作用からなる2×2分割表(表2−8)及び2×2分割表のそれぞれのセルを確率で表した確率表(表2−9)を作成し(p.29-30)、2×2分割表及び確率表を基に、統計シグナル(ROR、PRR、BCPNN、GPS、MGPS)を検出する(p.30-40)こと、今後のデータマイニングでは化学構造、薬理作用、薬物動態に関する知識をデータベース化することを検討すること(p.47,52)、医薬品群ごとに流通量が異なる等の理由から閾値を変更した方がよい場合があり、複数手法を併用したアンサンブル学習の枠組みを導入し、複数のシグナル検出手法によりシグナル検出を行い、その結果に基づいて最終的なシグナル検出を行う手法について検討すること(p.47,52)。

2 引用文献2について
(1)引用文献2の記載事項
原査定の拒絶の理由において引用された引用文献2(特開2020−035115号公報)には、以下の事項が記載されている。下線は当審が付した。
「【0001】
本発明は、化学構造の検索システム、検索方法、及び検索プログラムに関する。
【背景技術】
【0002】
分子の化学構造を文字列で表現する方法として、SMILES(Simplified Molecular Input Line Entry System)、SMARTS(SMILES Arbitrary Target Specification)などの表現法が用いられている。SMILESは、分子の化学構造をASCIIコートの英数字と記号で文字列化した表記法であり、構造検索やデータ入力などに広く用いられている。
【0003】
SMARTSは、SMILESを検索クエリに拡張した表記法である。SMARTSでは、結合の種類(二重結合または三重結合)や基の種類(芳香族または脂肪族)など、簡単な構造検索の条件を表記することができる(たとえば非特許文献1参照)。SMILESやSMARTSの外にも、InChI(Information Chemical Identifier)など、いくつかの表記法がある。
【0004】
一方、文書の検索において、正規表現が利用されている。文書の検索・照合において、文字列の正規表現から有限状態オートマトンを構築し、有限状態オートマトンを用いて文字列のマッチングを行う手法が提案されている(たとえば、特許文献1参照)。」
「【発明の概要】
【発明が解決しようとする課題】
【0007】
既存の分子記述言語による表現法では、検索したい化学物質の任意の集合を一つの文字列で表現することが困難である。任意の集合には、化学物質の部分構造、特定の性質を持つ分子の集合、反応により生成される生成物の集合などが含まれる。SMILESで化学構造の集合を表現する場合、その集合に含まれる化学物質の文字列をすべて列挙しなければならない。列挙するには大きなスペースが必要であり、そもそも無限集合は表現できない。類似の構造を持つ化合物の集合を示す表記法としてマルクーシュ構造(Markush structure)が存在するが、化学構造の表現の制限が大きく、選択肢に含まれる置換基を列挙する自然語の説明文が、別途必要となる。
【0008】
本発明は、簡単かつ柔軟に化学物質を検索することのできる構成と手法を提供することを目的する。」
「【0086】
まず、化学構造の正規表現拡張文字列を取得する(S11)。検索装置10A,10B、またはサーバ装置200に、直接、正規表現拡張文字列が入力されてもよいし、その他の表現形式で化学構造が特定されている場合は、正規表現拡張文字列に変換する。
【0087】
図1の検索装置10Aを用いる場合は、ステップ13に飛んで検索処理を行う。図2の検索装置10Bを用いる場合は、入力された正規表現拡張文字列を、グラフオートマトンに変換する(S12)。グラフオートマトンへの変換処理は、上述した通り、入力された文字列を最初から順に読み込み、グラフに見たてた化学構造のノードからノードへの遷移を規定する。
【0088】
入力された正規表現拡張文字列、または生成されたグラフオートマトンにしたがって、検索処理を行う(S13)。検索処理では、任意の化学物質データベースに記録されている化学物質について、正規表現拡張文字列に一致するか否か、またはグラフオートマンで規定される遷移を満たすか否かが判定される。グラフオートマトンで規定される遷移を満たす物質は、検索条件に一致すると判断される。」
(2)引用文献2に記載された技術的事項
上記(1)によると、引用文献2には次の技術的事項が記載されている。
化学構造の正規表現拡張文字列、または正規表現拡張文字列を変換して生成したグラフオートマトンを検索装置に入力して化学構造を検索すること。

3 引用文献3について
(1)引用文献3の記載事項
原査定の拒絶の理由において引用された引用文献3(米国特許出願公開第2013/0144636号明細書)には、次の事項が記載されている。当審訳中の下線は、注目箇所である。
「FIELD OF THE INVENTION

[0002] The present invention generally relates to the field of drug research. More particularly, the present invention relates to methods and systems for analyzing adverse drug reactions.

BACKGROUND OF THE INVENTION

[0003] Pharmaceutical consumption is continuously increasing due to, among other things, the aging of the U.S. population, enhanced medication coverage, and the introduction of drugs addressing conditions previously untreatable by medications. Although beneficial, pharmaceuticals are necessarily associated with rates of morbidity and mortality. Adverse drug reactions (ADRs) are generally a response to a drug which is noxious and unintended and which occurs at doses normally used in man for prophylaxis, diagnosis, or therapy of diseases or for modification of physiological function. Serious ADRs may result in death, hospitalization, significant disability, and other permanent and life-threatening conditions. Serious ADRs are also a major clinical problem, estimated to account for more than two million incidents requiring hospitalization annually, and more than 100,000 deaths in the United States.
[0004] These statistics reflect the challenge of identifying ADRs. This is partly due to the short-duration/defined population testing paradigm of clinical trials and the difficulty of recognizing novel ADRs in patients with potentially extensive medical histories. Although progress has been made toward identifying the causes of drug-induced morbidity, the process remains difficult and haphazard, and aspects of a drug's adversity can remain obscured for years.
[0005] Many drugs exhibit unexpected organ- or body system-specific ADRs, distinct from generic ADRs involving liver or kidney damage. The advent of high-throughput molecular measurement technologies, combined with publicly-available datasets, has the potential to substantially facilitate the identification of novel ADRs in newly introduced drugs whose ADR profile is mostly unknown. Since a fraction of organ-specific ADRs is likely due to drugs interacting with unintended targets, predicting such ADRs using data from large-scale compound screening campaigns might be possible because some of the molecular actors of ADRs could involve interactions at the cellular level and may be detectable.
[0006] Although attempts at predicting ADRs using preclinical compound characteristics or screening data have been made, much progress remains to be made. Computational methods have been developed wherein pharmacovigilance data are analyzed in conjunction with a drug's structural properties to predict ADR profiles. Other methods for predicting ADRs involve testing in non-human and even yeast species but suffer from interpretability limitations due to each species' pharmacological idiosyncrasies.
[0007] There is, therefore, a need for a system and method to predict ADRs prior to market introduction using, among other things, computational approaches applied to pre-clinical data so as to inform drug labeling and marketing with respect to potential ADRs.

SUMMARY OF THE INVENTION

[0008] Because some of the molecular actors of ADRs may involve interactions detectable in large, and increasingly public, compound screening campaigns, an embodiment of the present invention uses logistic regression models that correlate post-marketing ADRs with screening data from the PubChem BioAssay database. These models of the present invention analyze ADRs at the level of organ systems, the System Organ Classes (SOCs).
[0009] In testing to evaluate an embodiment of the present invention, nine of 19 SOCs under consideration were found to be significantly correlated with pre-clinical screening data. For six of eight established drugs for which SOC-specific adversities could be retropredicted, prior knowledge was found that support these predictions. SOC-specific adversities were then predicted for three unapproved or recently introduced drugs.
[0010] Embodiment of the present invention include computational methods for predicting adverse drug reactions in humans using publicly-available compound screening and pharmacovigilance data.
[0011] Embodiment of the present invention find application in, among other things, generating testable hypotheses for identifying unidentified adverse drug reactions in existing drugs. Embodiment of the present invention are also useful for predicting adverse drug reactions as part of the drug development process. Still other embodiments of the present invention are used for predicting adverse drug reactions in newly marketed drugs. The identification of proteins that can predict adverse drug reactions and are potentially involved in those reactions can also be achieved using embodiments of the present invention.」
(当審訳)
発明の分野
[0002]本発明は、一般に、薬剤研究の分野に関するものである。より詳細には、本発明は、薬剤有害反応を分析するための方法およびシステムに関する。
発明の背景
[0003]医薬品の消費は、とりわけ、米国人口の高齢化、薬剤療法の適用範囲の拡大、及び以前は薬剤療法で治療できなかった状態に対処する薬剤の導入により、継続的に増加している。医薬品は有益なものではあるが、必然的に罹患率や死亡率に関係してくる。薬剤有害反応(ADR)とは、一般に、疾病の予防、診断、治療または生理機能の変更のために、通常人体に用いられる用量で生じる、有害かつ意図しない薬剤に対する反応である。重篤なADRは、死亡、入院、重大な障害、およびその他の永久的かつ生命を脅かす状態に至る可能性がある。重篤なADRはまた、主要な臨床問題であり、米国において、毎年入院を必要とする200万以上の事故、および10万以上の死亡を占めると推定されている。
[0004]これらの統計は、ADRを特定することの難しさを反映している。これは、臨床試験の短期間/特定集団での試験というパラダイム、及び潜在的に広範な病歴を有する患者における新規ADRの認識の難しさに一部起因している。薬剤による罹患の原因究明は進んでいるが、そのプロセスは依然として困難であり、行き当たりばったりであり、薬剤の有害性の側面が何年も不明瞭なままであることもある。
[0005]多くの薬剤は、肝臓や腎臓の損傷を伴う一般的なADRとは異なり、予期しない臓器または身体系に特異的なADRを示す。ハイスループット分子測定技術の出現は、一般に利用可能なデータセットと相まって、ADRプロファイルがほとんど知られていない新規導入薬剤の新規ADRの同定を大幅に促進する可能性を持っている。臓器特異的なADRの一部は、薬剤が意図しない標的と相互作用することに起因すると考えられるので、ADRの分子的要因の一部は、細胞レベルでの相互作用を含み、検出可能である可能性があるので、大規模化合物スクリーニングキャンペーンからのデータを用いたそのようなADRの予測は可能であろう。
[0006]前臨床化合物の特性やスクリーニングデータを用いてADRを予測する試みはなされているが、まだ多くの進展が見られる。ファーマコビジランスデータを薬剤の構造的特性と組み合わせて解析し、ADRプロファイルを予測する計算方法が開発された。ADRを予測するための他の方法は、非ヒト種、さらには酵母種での試験を含むが、それぞれの種の薬理学的特質による解釈可能性の限界に悩まされる。
[0007]したがって、潜在的なADRに関して医薬品の表示およびマーケティングに情報を提供するために、特に前臨床データに適用される計算論的アプローチを使用して、市場導入前にADRを予測するシステムおよび方法が必要である。
発明の概要
[0008]ADRの分子的要因のいくつかは、大規模で、ますます公開されている、化合物スクリーニングキャンペーンで検出可能な相互作用を含む場合があるので、本発明の実施形態は、市販後のADRとPubChemのバイオアッセイデータベースからのスクリーニングデータとを相関させるロジスティック回帰モデルを使用する。本発明のこれらのモデルは、臓器系、System Organ Class(SOCs)のレベルでADRを分析する。
[0009]本発明の実施形態を評価するための試験において、検討中の19のSOCのうち9つが、前臨床スクリーニングデータと有意に相関することが見出された。SOCに特異的な有害性を逆推定できる8つの確立された薬剤のうち6つについて、これらの予測を支持する先行知識が見出された。次に、未承認または最近導入された3つの医薬品について、SOCに特異的な有害性が予測された。
[0010]本発明の実施形態は、一般に入手可能な化合物スクリーニング及びファーマコビジランスデータを用いて、ヒトにおける薬剤有害反応を予測するための計算方法を含む。
[0011]本発明の実施形態は、特に、既存の医薬品における未確認の薬剤有害反応を特定するための検証可能な仮説を生成することに応用を見出す。本発明の実施形態はまた、医薬品開発プロセスの一部として、薬剤有害反応を予測するために有用である。本発明のさらに他の実施形態は、新たに上市される医薬品における副作用を予測するために用いられる。薬剤有害反応を予測することができ、それらの反応に潜在的に関与しているタンパク質の同定も、本発明の実施形態を使用して達成することができる。

「[0044] In an embodiment of the present invention, a large, publicly-available compilation of heterogeneous, pre-clinical molecular screening assays were used to determine whether drug bioactivity across vast screens correlates with post-marketing ADRs manifesting in specific System Organ Classes (SOCs). SOCs are used to group types of ADRs according to where they manifest in the body as defined by the Medical Dictionary for Regulatory Activities (MedDRA). For example, “eosinophilia” as a side-effect of drug treatment is listed under “Blood and lymphatic system disorders” SOC.
[0045] In an embodiment, a drug's propensity toward SOC-specific ADRs was correlated, as calculated from the Canadian Adverse Drug Reaction (CVAR) pharmacovigilance database, with patterns of screening activity observed in the National Center for Biotechnology Information's PubChem BioAssay database. A component of the National Institutes of Health (NIH)'s Molecular Libraries Initiative, PubChem BioAssay currently stores data from more 487,000 screens involving hundreds of thousands of compounds across thousands of molecular targets that enables analyses previously available only to pharmaceutical companies.
[0046] Using these molecular screening assay data in an embodiment of the invnetion, statistical models were created for nine of 19 SOCs under consideration. Using an embodiment of the invention, these were then used to predict unrecognized ADRs for drugs currently or recently approved in the United States as well as drugs not yet marketed in the United States.
[0047] Methods
[0048] The analytical pipeline of an embodiment of the present invention searched across 485 drug ingredients in 508 BioAssays in PubChem to identify potential unrecognized adverse drug reactivities manifesting in specific System of Organ Classes (SOCs) (see FIG. 3).
[0049] Shown in FIG. 3, is a method according to an embodiment of the present invention for an analytical pipeline that uses a set of integrated databases to correlate a drug's pre-clinical, publically-available screening bioactivity with its pharmacovigilance adversity. The pipeline shown in FIG. 3 seeks drug screening bioactivities that correlate with the drug's adversity in individual SOCs as calculated by logistic regression models applied to bioactivity and SOC-specific PRR. For each SOC, the model with the best regression p-value was selected, and its selectivity and specificity assessed.
[0050] As shown, using CVAR data at step 302, the method of FIG. 3 calculates SOC-specific proportional reporting ratios (PRRs) for each ingredient of a drug of interest. Among other things, the PRRs provide information on how an adversity profile differs from one drug to another.
[0051] In an embodiment, post-marketing adverse drug reaction data were obtained from CVAR on Mar. 29, 2010 and loaded into a MySQL relational database (Oracle Corporation, Redwood Shores, Calif.). At that time, CVAR held spontaneously reported ADRs in Canada from 1965 to 2009. Drug reactions collected in pharmacovigilance databases cannot usually be attributed definitively to a drug and are generally presumed to be valid by the analytical pipeline of an embodiment of the present invention.
[0052] CVAR drug ingredient names were assigned a UMLS unique concept identifier for drugs (“RXCUI”) to cross-reference compounds across databases. 2,899 drug ingredients listed in CVAR were assigned an RXCUI with 485 RXCUIs mapped to compounds in the PubChem BioAssay database (see table of FIG. 10) associated with 1,498,570 presumed adverse drug reactions. Drug ingredients were not filtered according to type of molecule, such as small molecules and biologics.
[0053] CVAR relies upon the Medical Dictionary for Regulatory Activities (MedDRA) to group ADRs based on the tissues and organs where they manifest, the System of Organ Classes (SOC). Analyzing ADRs at the level of a SOC improves the detectability of signals in a manner consistent with how ADRs manifest in clinical practice.
[0054] In an embodiment, after merging the “Immune system disorders” SOC into the “Infections and infestations” SOC and excluding the SOCs “Injury, poisoning and procedural complications”, “Investigations”, “Social circumstances” and “Surgical and medical procedures”, 19 SOCs were found associated with ADRs meeting the present requirements.

[0055] In an embodiment, ADRs had to meet three requirements to participate in the calculation of a drug's SOC-specific PRR (described below): (1) association with a SOC; (2) be of type “adverse reaction” and of class “suspect”; (3) have a minimum of 10 reports associated with the drug ingredient. Several ADRs may be associated with a single report, possibly associated with different SOCs. These requirements ensure that SOC-specific PRRs are calculated on a meaningful number of ADRs for which the drug ingredient is the suspected causative agent. Between 1,250 and 178,290s ADRs per SOC were identified in this way (see table of FIG. 11).
[0056] PRR was used to assess a compound's propensity toward adverse reaction. This metric is based upon the ratio of the relative frequency of reactions of a given type as compared with all other types of reactions for a drug, and the frequency of reactions of that type for all other drugs in the database. The “SOC-specific PRR” of all drugs was calculated by pooling a drug's ADRs into those SOCs in which they manifest clinically as per equation (2), using the terms defined in the table of FIG. 9.
[0000]
PRR=[A/(A+C)]/[B/(B+D)] (2)
[0057] For logistic regression, SOC-specific PRRs were binarized (“BPRR”) according to equation (3):

[0058] The PRR threshold of 2 used here is generally assumed to indicate meaningful potential for adverse drug reactivity. Compounds without ADRs in a particular SOC were assigned a SOC-Specific PRR of 0 if at least 10 ADR reports involving ADRs in other SOCs were present. As shown in FIG. 3, the output of step 302 is bPRR (binarized PRR) of ingredients for each SOC.
[0059] At step 304, Z-scores of bioactivities are calculated for each compound in each BioAssay of interest. Among other things, the calculated Z-scores provide a measure for the activity level of the various compounds in a given assay.
[0060] Screening bioactivity data were obtained from PubChem's BioAssay database on Apr. 1, 2010 and converted into a MySQL database. At that time, the database contained BioAssays involving 466 molecular targets, as well as BioAssays without defined targets (e.g., cytotoxicity assays), involving more than one million Substance Identifiers (SIDs) (see table of FIG. 12).
[0061] The process of mapping SIDs to drug ingredients in CVAR is described in the table of FIG. 13. Informative BioAssays were selected based on the steps described in the table of FIG. 14
[0062] PubChem BioAssay's Activity Scores of compounds within each BioAssay were normalized to a Z-score according to equation (1):

where x is the Activity Score of the compound, and μ and σ are the average and standard deviation of the Activity Score for all compounds associated with the BioAssay, respectively. Raw activity measurements and depositor-submitted activity assessments stored in PubChem BioAssay (“Outcome”) were not used.
[0063] As shown in FIG. 3, the output of step 304 is a Z-scores of bioactivities for each compound in each BioAssay.
[0064] Identifiers from the Unified Medical Language System (UMLS), version 2007AC, were used to uniquely identify entities in the PubChem BioAssay, Substance, CVAR and DrugBank databases, as described below.
[0065] As shown in FIG. 3, at step 306, the method of FIG. 3 applies logistic regression of every SOC-specific PRRs of every ingredient of a drug against activities of every individual BioAssay. Since the number of CVAR drug ingredients shared between BioAssays decreases very rapidly as BioAssays are intersected, a forward- or backward-stepwise predictor selection in which all predictors (BioAssays) are evaluated together could not be performed. Instead, the construction of the logistic regression model was performed in two steps.
[0066] First, the BioAssay with the most significant univariate logistic regression coefficient was identified (“anchor assay”) at step 308. This is followed by the second most significant BioAssay as shown at step 310 that, when added to the model, most improved the Akaike's Information Criterion (AIC) of the resulting model without unduly impacting the significance of the anchor assay. For models with dual BioAssays, no interaction was assumed between them, and drugs must be present in both BioAssays.
[0067] To avoid potentially biasing models toward BioAssays with structurally related compounds, the Tanimoto coefficient was calculated for drug ingredients composing a model by evaluating all pairs of drugs for a Tanimoto coefficient ≧0.9. In a few instances a small fraction of a model's drugs satisfied this threshold (<10%). These were evaluated to determine whether they could bias the model by being overly associated with specific features within the model, for example, BPRR=1, or Z-score ≧2. No such over-representation was observed in models of the present invention.
[0068] As shown for the method of FIG. 3, steps 306 through 310 are repeated for each SOC (see branch 312).
[0069] At step 314, the generated model is validated. In an embodiment of the invention, a leave-one-out cross validation (LOOCV) and Receiver Operating Characteristic (ROC) methods were implemented, but those of ordinary skill in the art will understand that other validation methods can also be used. In step 314, individual drug ingredients were removed from the dataset, the model re-computed and evaluated using the ROCR module. This process was repeated for all drug ingredients within the model, and the average ROC AUC, regression coefficient, and p-value were generated for each SOC.
[0070] Screening Target Specificity
[0071] The target specificity of compounds screened in the models' BioAssays was assessed by comparing the known molecular interactors of a compound with the target associated with the BioAssay as stated by PubChem. DrugBank's drug-target associations were used for this purpose. Comparisons were made using GenBank GI numbers and target names.
[0072] Prediction of Unrecognized ADRs in Marketed Drug Ingredients
[0073] As a test of the predictive power of the present invention, drug ingredients were sought to be identified with unrecognized ADRs using models with ROC AUC≧0.7. Ingredients meeting three requirements were selected: largest logistic probability of high PRR (LPHPRR), LPHPRR≧0.5, but observed PRR<2. In the models, an LPHPRR≧0.5 indicates a compound predicted to exhibit a PRR≧2.
[0074] Three sources were consulted to determine prior association of the selected drug ingredient with the predicted SOC: the U.S. FDA drug label (DailyMed); the Warnings and Adverse Effects sections of each ingredient's record in the DRUGDEX database, a compilation of drug data and knowledge derived from the literature and regulatory agencies; and the FDA's MedWatch database. Types of ADRs equivalent to the MedDRA Primary Terms linked to the SOC predicted to be associated with the drug ingredient were taken to indicate that the ingredient was already known to be associated with that SOC.
[0075] ADR Prediction for Novel Drugs
[0076] An embodiment of the present invention was tested for the ability to predict adverse drug reactions in novel medications with limited or no known post-marketing adversity. Four conditions were applied for a drug ingredient to be considered “novel”: (1) not approved by the FDA at the time of writing, or approved within the past ten years; (2) included in an ongoing clinical trial as listed in ClinicalTrials.gov as of October 2010; (3) not included in the CVAR data set used to train the models due to lack of ADR reports; (4) present in the set of compounds screened in the BioAssays associated with a model. The bioactivity of novel ingredients was used to calculate the LPHPRR using models with ROC AUC≧0.7. For each SOC, the drug ingredient with the best LPHPRR and LPHPRR≧0.5 was retained. Predictions were assessed against prior knowledge according to the process described above, as well as searches in PubMed and EMBASE.
[0077] Results
[0078] For each drug, the pipeline applied logistic regression to seek individual or pairs of BioAssay bioactivities that optimally correlate with increased drug adversity in specific SOCs as measured by the Proportional Risk Ratio (PRR) metric. In an embodiment, drugs with a SOC-specific PRR≧2 were considered as especially prone to ADRs in that SOC.
[0079] For each SOC, BioAssays were first ranked based on the p-value of the logistic regression between a drug's binarized SOC-specific PRR and its screening bioactivity (See FIG. 4). BioAssays with the most significant p-values that most improved Akaike's Information Criterion (AIC) when combined into a single regression equation were selected to compose the SOC's model. In an embodiment, a total of 19 univariate or bivariate logistic regression models were generated in this way, one for each SOC grouping of adverse reactions, trained on as many drug ingredients as possible.
[0080] These models were evaluated using leave-one-out-cross-validation (LOOCV), which removes one drug ingredient from the dataset and uses the model to predict whether that drug had a significantly high PRR or not. The model's performance is then assessed using Receiver Operating Characteristic (ROC) analysis, and the process is repeated for all drug ingredients within the model.
[0081] The mean Area Under the Curve (AUC), regression coefficient and p-value are then computed in an embodiment of the present invention. The mean p-value of recomputed LOOCV regression models ranged from 10-2 to 10-8, with mean AUCs ranging from 0.60 to 0.92 (see table of FIG. 6). Nine models (47%) had AUC values of 0.7 or better (see table of FIG. 6). The ROC curves for the best two models, “Immune system disorders” (LOOCV mean AUC=0.92) and “Blood and lymphatic system disorders” (LOOCV mean AUC=0.79), are depicted in FIGS. 5A and 5B, respectively.
[0082] Models in an embodiment of the present invention encompass between 70 and 437 drug ingredients per model with most models relying on BioAssays that interrogate defined molecular targets (see table of FIG. 6). Of the 37 BioAssays selected by the pipeline in an embodiment of the present invention, two were assigned to more than one SOC: AID2066 was found to be predictive in SOCs “Gastrointestinal disorders” and “General disorders and administration site conditions”, whereas AID2557 was predictive in the “Nervous system disorders” and the “Cardiac disorders” SOCs.
[0083] Most of the BioAssays in the models of an embodiment of the present invention were performed by members of the NIH Molecular Library Screening Center Network or the NIH Molecular Libraries Probe Production Centers Network. These BioAssays were roughly divided across the screening (single compound concentration testing) and confirmatory (multiple compound concentration testing) categories. The two best performing models involve screens performed in vivo: AID 119 (“Immune system disorders” SOC) and AID330 (“Blood and lymphatic system disorders” SOC), respectively. AID119 seeks small molecules growth inhibitors of CCRF-CEM leukemia cells, a human acute lymphoblastic leukemia cell line. AID330 seeks small molecule inhibitors of tumor growth or survival for mouse P388 leukemia cells in vivo, a model of leukemia. Also notable is the selection of 13 BioAssays (46% of selected BioAssays) that measure biochemical activity in a cell-free context (see table of FIG. 6).
[0084] For those screens with defined targets (78% of selected BioAssays), almost none of the molecular targets of the drugs used to train the models in an embodiment are the same as the targets of the BioAssays learned for a given model.
[0085] Predictions for Marketed Drugs
[0086] Retropredictive evaluation was performed for these models of the present invention using the individual drugs encompassed in these models. Models with a ROC AUC≧0.7 were used to calculate the logistic probability of high PRR (LPHPRR) for individual drugs within a model. For each model, the selected drug ingredient was the one with the largest LPHPRR for which the present inventions prediction of PRR≧2 did not match its current PRR<2 as calculated from CVAR pharmacovigilance data. These are drug ingredients for which a high PRR is predicted by an embodiment of the present invention but for which a low SOC-specific PRR is calculated using conventional reporting methods. Using an embodiment of the present invention, potential unrecognized SOC-specific ADRs were predicted for eight drugs with LPHPRR ranging from 0.56 for the “Eye disorders” SOC to 0.93 for the “Blood and lymphatic system disorders” SOC (See table of FIG. 7)」
(当審訳)
[0044]本発明の一実施形態では、異種前臨床分子スクリーニングアッセイの大規模で一般に入手可能な編集物を使用して、膨大なスクリーンにわたる薬剤の生物活性が、特定のSystem Organ Class(SOC)に現れる市販後のADRと相関するかどうかを判断した。SOCは、MedDRA(Medical Dictionary for Regulatory Activities)の定義に従って、ADRの種類を体のどこに現れるかによってグループ化するために使用される。例えば、薬剤治療の副作用としての「好酸球増多」は、「血液及びリンパ系障害」のSOCに記載されている。
[0045]実施形態において、SOC特異的なADRに対する薬剤の傾向は、カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベースから計算したように、国立生物工学情報センターのPubChemのバイオアッセイデータベースで観察されたスクリーニング活性のパターンと相関があった。米国国立衛生研究所(NIH)の分子ライブラリー構想の構成要素であるPubChemのバイオアッセイは、現在、数千の分子標的にわたって数十万の化合物を含む48万7千以上のスクリーニングからのデータを格納しており、以前は製薬会社のみが利用できた分析を可能にしている。
[0046]本発明の実施形態においてこれらの分子スクリーニングアッセイデータを使用して、検討中の19のSOCのうち9つについて統計モデルが作成された。本発明の実施形態を用い、これらは、現在米国で承認されているか、最近承認された医薬品、及び米国でまだ販売されていない医薬品の未認識ADRを予測するために使用された。
[0047]方法
[0048]本発明の実施形態の分析パイプラインは、PubChemの508のバイオアッセイにおける485の薬剤成分にわたって検索し、特定のSystem of Organ Classes(SOC)において発現する潜在的に未認識の薬剤有害反応性を特定した(図3参照)。
[0049]図3に示すのは、統合データベースのセットを使用して、薬剤の前臨床、公的に入手可能なスクリーニング生物活性とファーマコビジランス有害性とを相関させる分析パイプラインのための本発明の実施形態に従った方法である。図3に示すパイプラインは、生物活性とSOC固有のPRRに適用されるロジスティック回帰モデルによって計算されるように、個々のSOCにおける薬剤の有害性と相関する薬剤スクリーニング生物活性を求めるものである。各SOCについて、最良の回帰p値を有するモデルを選択し、その選択性及び特異性を評価した。
[0050]示されるように、ステップ302でCVARデータを使用して、図3の方法は、関心のある薬剤の各成分についてSOC特異的相対危険度(PRR)を計算する。とりわけ、PRRは、有害性プロファイルがある薬剤から別の薬剤までどのように異なるかについての情報を提供する。
[0051]実施形態において、市販後副作用データは、2010年3月29日にCVARから取得され、MySQLリレーショナルデータベース(Oracle Corporation, Redwood Shores, Calif.)にロードされた。その時、CVARは、1965年から2009年までのカナダにおける自発的に報告されたADRを保有していた。ファーマコビジランスデータベースに収集された薬剤反応は、通常、薬剤に決定的に起因することはできず、一般に、本発明の実施形態の分析パイプラインによって有効であることが推定される。
[0052]CVARの薬剤成分名には、データベース間で化合物を相互参照するために、UMLSの薬剤用固有概念識別子(「RXCUI」)が割り当てられた。CVARにリストされた2,899の薬剤成分にRXCUIを割り当て、485のRXCUIを1,498,570の推定薬剤有害反応に関連するPubChemのバイオアッセイデータベース(図10の表を参照)内の化合物にマップさせた。薬剤成分は、低分子や生物製剤のような分子の種類に従ってフィルタリングされていない。
[0053]CVARは、Medical Dictionary for Regulatory Activities (MedDRA)に基づいて、ADRが発現する組織や臓器、System of Organ Classes (SOC)に基づいてグループ化されている。SOCのレベルでADRを分析することにより、ADRが臨床でどのように発現するかと一致した方法でシグナルの検出可能性を向上させることができる。
[0054]実施形態において、「免疫系障害」SOCを「感染症及び蔓延」SOCに統合し、SOC「傷害、中毒及び手続き上の合併症」、「調査」、「社会状況」及び「外科及び医療処置」を除外すると、19個のSOCが本要件を満たすADRと関連していることが判明した。
[0055]実施形態において、ADRは、薬剤のSOC特異的PRR(後述)の計算に参加するために、3つの要件を満たさなければならなかった。(1)SOCとの関連;(2)タイプが「有害反応」であり、クラスが「疑い」であること;(3)薬剤成分に関連する報告が最低10件であることである。1つの報告書に複数のADRが関連付けられ、異なるSOCに関連付けられる可能性がある。これらの要件により、SOC特異的PRRは、医薬品成分が原因物質として疑われるADRのうち意味のある数で計算されることが保証される。このようにして、SOCあたり1,250〜178,290sのADRが特定された(図11の表参照)。
[0056]PRRは、化合物の副作用の傾向を評価するために使用された。この指標は、ある薬剤の他の全ての種類の反応と比較した所定の種類の反応の相対頻度と、データベース内の他の全ての薬剤のその種類の反応の頻度との比に基づくものである。全薬剤の「SOC特異的PRR」は、図9の表で定義された用語を用いて、式(2)のように薬剤のADRを臨床的に発現するSOCにプールすることにより算出されたものである。
PRR=[A/(A+C)]/[B/(B+D)] (2)
[0057]ロジスティック回帰については、式(3)に従ってSOC特異的PRRを2値化(「BPRR」)した。

[0058]ここで使用されるPRRの閾値2は、一般に、薬剤有害反応性の有意な可能性を示すと仮定される。特定のSOCにおけるADRのない化合物は、他のSOCにおけるADRを含む少なくとも10のADR報告が存在する場合、0というSOC特異のPRRを割り当てた。図3に示すように、ステップ302の出力は、各SOCに対する成分のbPRR(2値化PRR)である。
[0059]ステップ304では、各バイオアッセイの対象化合物について、生物活性のZスコアが算出される。とりわけ、計算されたZスコアは、所定のアッセイにおける様々な化合物の活性レベルの指標を提供する。
[0060]スクリーニング生物活性データは、2010年4月1日にPubChemのバイオアッセイデータベースから取得され、MySQLデータベースに変換された。その時点で、データベースは、466の分子標的を含むバイオアッセイ、ならびに100万以上の物質識別子(SID)を含む、定義された標的のないバイオアッセイ(例えば、細胞毒性アッセイ)を含む(図12の表参照)。
[0061]CVARの薬剤成分にマッピングされたSIDの処理は、図13のテーブルに記載されている。有益なバイオアッセイは図14のテーブルに記述されたステップに基づいて選択した。
[0062]各バイオアッセイ内の化合物PubChemのバイオアッセイの活動スコアは、式(1)のZスコアに正規化した。

ここで、xは化合物のActivity Scoreであり、μおよびσはそれぞれバイオアッセイに関連するすべての化合物のActivity Scoreの平均および標準偏差である。PubChemのバイオアッセイに保存されている生の活性測定値および寄託者が提出した活性評価値(「Outcome」)は使用されていない。
[0063]図3に示すように、ステップ304の出力は、各バイオアッセイの各化合物に対する生物活性のZスコアである。
[0064]以下に説明するように、PubChemのバイオアッセイ、Substance、CVARおよびDrugBankデータベース内の実体を一意に識別するために、Unified Medical Language System(UMLS)、バージョン2007ACからの識別子が使用された。
[0065]図3に示すように、ステップ306で、図3の方法は、個々のバイオアッセイの活性に対して、薬剤の全ての成分の全てのSOC特異的PRRのロジスティック回帰を適用する。バイオアッセイ間で共有されるCVAR薬剤成分の数は、バイオアッセイが交差するにつれて非常に急速に減少するので、全ての予測因子(バイオアッセイ)が一緒に評価される前方または後方段階的予測因子選択を実行することはできなかった。その代わりに、ロジスティック回帰モデルの構築は、2つのステップで行われた。
[0066]まず、ステップ308で、最も有意な単変量ロジスティック回帰係数を有するバイオアッセイが特定された(「アンカーアッセイ(anchor assay)」)。これに続いて、ステップ310で示されるように、モデルに追加されたとき、アンカーアッセイの有意性に過度に影響を与えることなく、得られたモデルの赤池の情報量基準(AIC)を最も改善する、2番目に有意なバイオアッセイが示される。2つのバイオアッセイを有するモデルについては、それらの間に相互作用がないことが仮定され、薬剤は両方のバイオアッセイに存在しなければならない。
[0067]構造的に関連する化合物を含むバイオアッセイにモデルが偏る可能性を避けるため、モデルを構成する薬剤成分について、すべての組の薬剤を評価してTanimoto係数を計算し、Tanimoto係数≧0.9となるようにした。この閾値を満たす薬剤は、モデル中のごく一部(10%未満)である場合がある。これらは、モデル内の特定の特徴、例えばBPRR=1やZ-score≧2と過剰に関連することによって、モデルに偏りが生じるかどうかを判断するために評価された。本発明のモデルにおいて、そのような過剰な表現は観察されなかった。
[0068]図3の方法について示すように、ステップ306〜310は、各SOCについて繰り返される(分岐312を参照)。
[0069]ステップ314で、生成されたモデルが検証される。本発明の実施形態では、リーブワンアウトクロスバリデーション(LOOCV)およびレシーバ動作特性(ROC)法が実施されたが、当業者であれば、他の検証法も使用できることを理解できるであろう。ステップ314では、個々の薬剤成分をデータセットから削除し、モデルを再計算し、ROCRモジュールを用いて評価した。このプロセスを、モデル内のすべての薬剤成分について繰り返し、平均ROC AUC、回帰係数、およびp値を各SOCについて生成した。
[0070]スクリーニングの標的特異性
[0071]モデルのバイオアッセイでスクリーニングされた化合物の標的特異性は、化合物の既知の分子相互作用体を、PubChemに記述されているようにバイオアッセイに関連する標的と比較することによって評価された。DrugBankの薬剤−標的の関連付けは、この目的のために使用された。比較は、GenBankのGI番号と標的名を用いて行った。
[0072]市販の医薬品成分における未認識ADRの予測
[0073]本発明の予測力のテストとして、ROC AUC≧0.7のモデルを用いて、未認識ADRを同定する医薬品成分を求めた。モデルにおいて、LPHPRR≧0.5は、PRR≧2を示すと予測される化合物を示している。
[0074]米国FDAの医薬品ラベル(DailyMed)、文献や規制当局から得た医薬品データと知識の編集物であるDRUGDEXデータベースの各成分の記録の警告と副作用のセクション、およびFDAのMedWatchデータベースの3つの情報源を参照して、選択した医薬品成分と予測されるSOCの事前関連性を判断した。医薬品成分に関連すると予測されるSOCにリンクされたMedDRA Primary Termsに相当するADRの種類は、その成分がそのSOCと関連することが既に知られていることを示すとした。
[0075]新規薬剤のADR予測
[0076]本発明の実施形態は、市販後の既知の有害性が限定的であるか、または全くない新規の薬剤における副作用を予測する能力について試験された。薬剤成分が「新規」とみなされるために4つの条件が適用された:(1)執筆時にFDAによって承認されていない、または過去10年以内に承認された;(2)2010年10月の時点でClinicalTrials.govに記載されているように進行中の臨床試験に含まれている;(3)ADR報告がないためにモデルを学習するために使用したCVARデータセットに含まれていない;(4)モデルに関連したバイオアッセイでスクリーニングした化合物のセットに存在する。新規成分の生物活性は、ROC AUC≧0.7のモデルを用いてLPHPRRを算出した。各SOCに、LPHPRRが最も良好でLPHPRR≧0.5である薬剤成分が保持された。予測値は、上記のプロセス、およびPubMedとEMBASEでの検索に従って、事前知識に対して評価された。
[0077]結果
[0078]各薬剤について、パイプラインはロジスティック回帰を適用し、相対危険度(PRR)指標によって測定される特定のSOCにおける薬害の増加と最適に相関するバイオアッセイ生物活性の個別又は対を求める。実施形態では、SOC特異的PRR≧2を有する薬剤は、そのSOCにおいてADRを特に起こしやすいと考えられた。
[0079]各SOCについて、バイオアッセイは、まず、薬剤の2値化されたSOC特異的PRRとそのスクリーニング生物活性との間のロジスティック回帰のp値に基づいてランク付けされた(図4参照)。単一の回帰式に組み合わせたときに赤池情報量規準(AIC)を最も改善する最も有意なp値を有するバイオアッセイを、SOCのモデルを構成するために選択した。実施形態では、このようにして、有害反応のグループ化された各SOCについて1つずつ、合計19個の単変量または2変量ロジスティック回帰モデルを生成し、できるだけ多くの薬剤成分について学習した。
[0080]これらのモデルは、データセットから1つの薬剤成分を削除し、その薬剤が有意に高いPRRを有するか否かを予測するためにモデルを使用する、leave-one-out交差検証(LOOCV)を使用して評価された。次に、モデルの性能は、受信者操作特性(ROC)分析を用いて評価され、このプロセスは、モデル内のすべての薬剤成分について繰り返される。
[0081]平均曲線下面積(AUC)、回帰係数及びp値は、次に、本発明の実施形態において計算される。再計算されたLOOCV回帰モデルの平均p値は、10-2から10-8の範囲であり、平均AUCは0.60から0.92の範囲であった(図6の表参照)。9つのモデル(47%)は、0.7以上のAUC値を有していた(図6の表参照)。最良の2つのモデル、「免疫系障害」(LOOCV平均AUC=0.92)及び「血液及びリンパ系障害」(LOOCV平均AUC=0.79)のROC曲線は、それぞれ図5A及び図5Bに描かれている。
[0082]本発明の実施形態におけるモデルは、モデルあたり70〜437の薬剤成分を包含し、ほとんどのモデルは、定義された分子標的を問うバイオアッセイに依存している(図6の表を参照のこと)。本発明の実施形態におけるパイプラインによって選択された37のバイオアッセイのうち、2つが複数のSOCに割り当てられた:AID2066は、SOC「胃腸障害」及び「一般障害及び投与部位状態」において予測的であることが判明したが、AID2557は「神経系障害」及び「心臓障害」SOCにおいて予測的であった。
[0083]本発明の実施形態のモデルにおけるバイオアッセイのほとんどは、NIH Molecular Library Screening Center NetworkまたはNIH Molecular Libraries Probe Production Centers Networkのメンバーによって実施されたものであった。これらのバイオアッセイは、スクリーニング(単一化合物濃度試験)および確認(複数化合物濃度試験)のカテゴリーに大別された。最も成績の良かった2つのモデルは、それぞれAID119(「免疫系障害」SOC)とAID330(「血液およびリンパ系障害」SOC)であり、in vivoで行われるスクリーニングを含んでいる。AID119は、ヒト急性リンパ芽球性白血病細胞株であるCCRF-CEM白血病細胞の低分子成長阻害剤を探索する。AID330は、白血病のモデルであるマウスP388白血病細胞のin vivoにおける腫瘍の成長または生存を阻害する低分子化合物を求めている。また、注目すべきは、無細胞状態で生化学的活性を測定する13のバイオアッセイ(選択されたバイオアッセイの46%)が選択されていることである(図6の表参照)
[0084]定義された標的を有するそれらのスクリーン(選択されたバイオアッセイの78%)については、実施形態においてモデルを学習するために使用される薬剤の分子標的のほとんどすべてが、所定のモデルについて学習したバイオアッセイの標的と同じでない。
[0085]市販薬の予測
[0086]本発明のこれらのモデルについて、これらのモデルに包含される個々の薬剤を用いて、再予測評価を実施した。ROC AUC≧0.7であるモデルを用いて、モデル内の個々の薬剤に対する高PRRのロジスティック確率(LPHPRR)を計算した。各モデルにおいて、選択された薬剤成分は、PRR≧2の本発明予測が、CVARファーマコビジランスデータから計算された現在のPRR<2と一致しない、最大のLPHPRRを持つものであった。これらは、本発明の実施形態によって高いPRRが予測されるが、従来の報告方法を用いて低いSOC特異的PRRが計算される薬剤成分である。本発明の実施形態を用いると、LPHPRRが「眼障害」SOCの0.56から「血液及びリンパ系障害」SOCの0.93までの8つの薬剤について潜在的な未認識SOC特異的ADRが予測された(図7の表参照)。

(2)引用文献3の記載事項から把握できる事項
ア [0002]、[0003]、[0008]、[0011]、[0044]、[0048]、[0049]の記載によると、引用文献3には、「特定のSOC(System Organ Class)に現れる市販後の薬剤有害反応(ADR)と、PubChemのバイオアッセイデータベースからスクリーニングした薬剤の生物活性との相関を分析し、各SOCについてロジスティック回帰モデルを生成し、生成されたロジスティック回帰モデルを使用して、新たに上市される医薬品におけるSOCに特異的な有害性を予測する方法」が記載されている。
イ [0045]、[0050]、[0051]、[0053]、[0055]〜[0058]、[0078]、図3の記載によると、上記アの相関の分析について、ステップ302において、「特定のSOC(System Organ Class)に現れる市販後の薬剤有害反応(ADR)」として、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」を使用し、CVARから関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)を特定し、PRRが2以上か否かで2値化して、各SOCに対する成分のbBRR(binarized PRR)として算出する。
ウ [0052]、[0059]、[0078]、図3の記載によると、上記アの相関の分析について、ステップ304において、CVARで特定された薬剤成分名にUMLSの薬剤用固有概念識別子(RXCUI)を割り当て、PubChemのバイオアッセイデータベース内の化合物にマッピングさせ、各バイオアッセイの対象化合物について生物活性のZスコアを算出する。
エ [0065]、[0066]、[0078]、[0079]、図3の記載によると、上記アの「ロジステッィク回帰モデル」の生成は、各SOCについて、ステップ306において、個々のバイオアッセイの活性に対して、薬剤の全ての成分の全てのSOC特異的bPRRのロジスティック回帰を適用し、ステップ308において、最も有意な単変量ロジスティック回帰係数を有するバイオアッセイ(アンカーアッセイ)を特定し、これに続いて、ステップ310において、モデルに追加されたとき、アンカーアッセイの有意性に過度に影響を与えることなく、得られたモデルの赤池の情報量基準を最も改善する、2番目に有意なバイオアッセイを特定して、SOCのロジスティック回帰モデルを生成し、できるだけ多くの薬剤成分について学習する。
オ [0073]、[0076]、[0086]の記載によると、上記アの「医薬品におけるSOCに特異的な有害性を予測」について、本ロジスティック回帰モデルを使用して、モデル内の個々の薬剤に対する高PRR確率(LPHPRR)を算出するものであり、この結果として、CVARファーマコビジランスデータから計算されたPRRがPRR<2にも関わらず、高いPRRが予測される確率であるLPHPRRを持つ薬剤成分を予測することができた。

(3)引用発明
ア 上記(2)より、引用文献3には、次の発明(以下「引用発明」という。)が記載されている。
「特定のSOC(System Organ Class)に現れる市販後の薬剤有害反応(ADR)と、PubChemのバイオアッセイデータベースからスクリーニングした薬剤の生物活性との相関を分析し、各SOCについてロジスティック回帰モデルを生成し、生成されたロジスティック回帰モデルを使用して、新たに上市される医薬品におけるSOCに特異的な有害性を予測する方法であって、
ロジスティック回帰モデルの生成において、
カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベースを使用し、CVARから関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)を特定し、PRRが2以上か否かで2値化して、各SOCに対する成分のbBRR(binarized PRR)として算出し(ステップ302)、
CVARで特定された薬剤成分名にUMLSの薬剤用固有概念識別子(RXCUI)を割り当て、PubChemのバイオアッセイデータベース内の化合物にマッピングさせ、各バイオアッセイの対象化合物について生物活性のZスコアを算出し(ステップ304)、
各SOCについて、個々のバイオアッセイの活性に対して、薬剤の全ての成分の全てのSOC特異的bPRRのロジスティック回帰を適用し(ステップ306)、最も有意な単変量ロジスティック回帰係数を有するバイオアッセイ(アンカーアッセイ)を特定し(ステップ308)、これに続いて、モデルに追加されたとき、アンカーアッセイの有意性に過度に影響を与えることなく、得られたモデルの赤池の情報量基準を最も改善する、2番目に有意なバイオアッセイを特定して(ステップ310)、各SOCについてロジスティック回帰モデルを生成し、できるだけ多くの薬剤成分について学習し、
有害性の予測において、
生成されたロジスティック回帰モデルを使用して、モデル内の個々の薬剤に対する高PRR確率(LPHPRR)を算出することにより、医薬品におけるSOCに特異的な有害性を予測する方法。」

イ また、引用文献3には、生成されたロジスティック回帰モデルにより予測した結果、CVARファーマコビジランスデータから計算されたPRRがPRR<2にも関わらず、高いPRRが予測される確率であるLPHPRRを持つ薬剤成分を予測することができたことが記載されている([0086])。

第5 当審の判断
1 本願発明1について
(1)対比
本願発明1と引用発明とを対比する。
ア 引用発明の「ロジスティック回帰モデル」は、薬剤成分の有害性を予測するために「高PRR確率(LPHPRR)」を計算するモデルであるから、引用発明の「高PRR確率(LPHPRR)」を計算する「ロジスティック回帰モデル」と本願発明1の「統計シグナル推論モデル」とは、「統計シグナルに関する値を推論する推論モデル」である点で共通する。
イ 引用発明の「ロジスティック回帰モデル」は、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」からの「関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)」と、「PubChemのバイオアッセイデータベース内の化合物」からの生物活性のZスコアとを学習データとし、CVARからの「SOC特異の薬剤有害反応(ADR)」は、薬剤有害情報であり、「PubChemのバイオアッセイデータベース内の化合物」は、医薬品の薬剤成分を示すものである。
そして、薬剤有害情報、医薬品の薬剤成分は、それぞれのデータベース内において、符号化されていることは明らかであり、CVARとPubChemのバイオアッセイデータベースとの薬剤成分は、UMLSの薬剤用固有概念識別子(RXCUI)によりマッピングされているから、CVARの薬剤有害情報とPubChemのバイオアッセイデータベースの薬剤成分は、いずれも、符号化されていることは明らかである。
よって、引用発明の「PubChemのバイオアッセイデータベース内の化合物」のデータ、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」からの「関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)」のデータは、それぞれ、本願発明1の「医薬品の化学構造式を符号化したデータ」、「有害事象を符号化したデータ」に相当する。
ウ 引用発明の「PRRが2以上か否かで2値化して、各SOCに対する成分のbBRR(binarized PRR)として算出」することについて、PRRは、「統計シグナル」であり、「bPRR」は、統計シグナルを閾値2で2値化した情報である。
よって、引用発明の「PRRが2以上か否かで2値化して」、算出した「各SOCに対する成分のbBRR(binarized PRR)」と、本願発明1の「当該医薬品及び当該有害事象に少なくとも関連した統計シグナルの実際値」とは、「当該医薬品及び当該有害事象に少なくとも関連した統計シグナルに関する教師データ」である点で共通する。
エ 引用発明の上記イの「PubChemのバイオアッセイデータベース内の化合物」のデータと、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」からの「関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)」のデータと、「PRRが2以上か否かで2値化して」算出した「各SOCに対する成分のbBRR(binarized PRR)」は、「ロジスティック回帰モデル」の学習データ、すなわち、教師データとして使われるから、引用発明の、「PubChemのバイオアッセイデータベース内の化合物」のデータと、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」からの「関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)」のデータと、「各SOCに対する成分のbBRR(binarized PRR)」とを、学習データとして取得することと、本願発明1の「複数の教師データを準備するステップであって、各教師データは、医薬品の化学構造式を符号化したデータと、有害事象を符号化したデータと、当該医薬品及び当該有害事象に少なくとも関連した統計シグナルの実際値とを含む、ステップ」とは、「複数の教師データを準備するステップであって、各教師データは、医薬品の化学構造式を符号化したデータと、有害事象を符号化したデータと、当該医薬品及び当該有害事象に少なくとも関連した統計シグナルに関する教師データとを含む、ステップ」である点で一致する。
また、引用発明の、「PubChemのバイオアッセイデータベース内の化合物」のデータと、「カナダ有害医薬品反応(CVAR)ファーマコビジランスデータベース」からの「関心のある薬剤の各成分についてSOC特異の薬剤有害反応(ADR)」のデータと、「各SOCに対する成分のbBRR(binarized PRR)」とを「ロジスティック回帰モデル」の学習に使用することと、本願発明1の「前記複数の教師データを用いた機械学習により、統計シグナル推論モデルを生成するステップ」とは、「前記複数の教師データを用いた機械学習により、統計シグナルに関する値を推論する推論モデルを生成するステップ」である点で共通する。
オ 引用発明の「ロジスティック回帰モデル」は、有害性の予測をする場合、モデル内の薬剤に対する高PRR確率(LPHPRR)を算出するから、引用発明の、「ロジスティック回帰モデル」が、薬剤に対する高PRR確率を算出することと、本願発明の「該統計シグナル推論モデルは、医薬品の化学構造式を符号化したデータと、有害事象を符号化したデータとを少なくとも入力とし、符号化したデータが入力された前記医薬品及び前記有害事象に少なくとも関連した前記統計シグナルの推定値を出力とする」こととは、「統計シグナルに関する値を推論する推論モデルは、医薬品の化学構造式を符号化したデータを入力とし、符号化したデータが入力された前記医薬品に関連した統計シグナルに関する値を出力とする」点で共通する。

(2)一致点、相違点
上記(1)によると、本願発明1と引用発明とは、次の一致点、相違点を有する。
[一致点]
複数の教師データを準備するステップであって、各教師データは、
医薬品の化学構造式を符号化したデータと、
有害事象を符号化したデータと、
当該医薬品及び当該有害事象に少なくとも関連した統計シグナルに関する教師データと
を含む、ステップと、
前記複数の教師データを用いた機械学習により、統計シグナルに関する値を推論する推論モデルを生成するステップであって、該統計シグナルに関する値を推論する推論モデルは、
医薬品の化学構造式を符号化したデータ
を入力とし、
符号化したデータが入力された前記医薬品に関連した統計シグナルに関する値
を出力とする、ステップと
を含む方法。

[相違点1]
「統計シグナルに関する教師データ」が、本願発明1では「統計シグナルの実際値」であるのに対し、引用発明では「PRRが2以上か否かで2値化して」、算出した「各SOCに対する成分のbBRR(binarized PRR)」である点。
[相違点2]
統計シグナルに関する値を推論する推論モデルが、本願発明1では、「医薬品の化学構造式を符号化したデータと、有害事象を符号化したデータと」を入力とし、「前記医薬品及び前記有害事象に少なくとも関連した前記統計シグナルの推定値」を出力とする「統計シグナル推論モデル」であるのに対し、引用発明では、薬剤に対する「高PRR確率(LPHPRR)」を出力とする「ロジスティック回帰モデル」である点。

(3)判断
[相違点1]、[相違点2]についてまとめて検討する。
引用発明の教師データは、有害事象のPRRについて、PRRが2以上か否かで2値化した「各SOCに対する成分のbBRR(binarized PRR)」であり、生成された「ロジスティック回帰モデル」で出力されるのは、「高PRR確率」、すなわち、PRRが2以上となる確率であるから、引用発明の「ロジスティック回帰モデル」は、0(PRR<2)、1(PRR≧2)の2値で表されたデータを教師データとし、1となる確率、すなわち、PRRが2以上となる確率を出力する「推論モデル」である。
一方、本願発明1における「統計シグナル推論モデル」は、「統計シグナル」の実際値を教師データとし、同じ「統計シグナル」の推定値を出力する「推論モデル」である。
そして、引用文献1、引用文献2には、統計シグナル値を推定すること、推論モデルについての記載はない。
よって、引用発明の確率を出力する「ロジスティック回帰モデル」によっては統計シグナルの実際値を教師データとし、統計シグナルの推定値を出力することはできないし、引用発明の「ロジスティック回帰モデル」を他の推論モデルに変更する動機もないから、相違点1及び相違点2に係る構成は当業者であっても容易に想到し得たものではない。
そして、本願発明1は、「患者に投与した結果、有害事象が報告されていない等の理由により、安全対策に必要な統計シグナルを計算するためのデータが存在しない医薬品であったとしても、その化学構造式に基づき、所与の有害事象についての統計シグナルを推定することができる。」(本願明細書の【0020】)という、本願明細書に記載された格別の作用効果を奏するものである。
したがって、本願発明1は、引用発明、引用文献1、引用文献2に記載された技術的事項に基づいて当業者が容易に発明をすることができたとものとはいえない。

2 本願発明2〜4について
本願発明2〜4は、本願発明1を限定した発明であり、上記[相違点1]、[相違点2]に係る構成を備えるものであるから、本願発明1と同じ理由により、引用発明、引用文献1、引用文献2に記載された技術的事項に基づいて当業者が容易に発明をすることができたものとはいえない。

3 本願発明5、8、9について
本願発明5、8、9は、本願発明1の「統計シグナル推論モデル」を用いて、統計シグナルの推定値を取得する、それぞれ、「プログラム」、「方法」、「システム」の発明であり、本願発明1の[相違点1]及び[相違点2]に対応する構成を備えるものであるから、本願発明1と同じ理由により、引用発明、引用文献1、引用文献2に記載された技術的事項に基づいて当業者が容易に発明をすることができたものとはいえない。

4 本願発明6、7について
本願発明6、7は、本願発明5を限定した発明であり、本願発明1の[相違点1]及び[相違点2]に対応する構成を備えるものであるから、本願発明1と同じ理由により、引用発明、引用文献1、引用文献2に記載された技術的事項に基づいて当業者が容易に発明をすることができたものとはいえない。

第6 むすび
以上のとおり、本願発明1〜9は、引用発明、引用文献1、引用文献2に記載された技術的事項に基づいて当業者が容易に発明をすることができたものではない。
したがって、原査定の理由によっては、本願を拒絶することはできない。
また、他に本願を拒絶すべき理由を発見しない。
よって、結論のとおり審決する。
 
審決日 2022-06-22 
出願番号 P2020-176322
審決分類 P 1 8・ 121- WY (G16C)
最終処分 01   成立
特許庁審判長 溝本 安展
特許庁審判官 高瀬 勤
古川 哲也
発明の名称 統計シグナル推論モデルを生成するための方法、並びに、当該統計シグナル推論モデル用いて統計シグナルの推定値を得るための方法、システム及びプログラム  
代理人 山本 修  
代理人 松尾 淳一  
代理人 宮前 徹  

プライバシーポリシー   セキュリティーポリシー   運営会社概要   サービスに関しての問い合わせ