Novel machine learning models to predict endocrine disruption activity for high-throughput chemical screening

Simple item page

Simple item page

Full item details

dc.contributor.author
Collins, Sean P.
Barton-Maclaren, Tara S.
dc.date.accessioned
2023-06-11T21:59:56Z
dc.date.available
2023-06-11T21:59:56Z
dc.date.issued
2022-09-20
dc.description.abstract - en
An area of ongoing concern in toxicology and chemical risk assessment is endocrine disrupting chemicals (EDCs). However, thousands of legacy chemicals lack the toxicity testing required to assess their respective EDC potential, and this is where computational toxicology can play a crucial role. The US (United States) Environmental Protection Agency (EPA) has run two programs, the Collaborative Estrogen Receptor Activity Project (CERAPP) and the Collaborative Modeling Project for Receptor Activity (CoMPARA) which aim to predict estrogen and androgen activity, respectively. The US EPA solicited research groups from around the world to provide endocrine receptor activity Qualitative (or Quantitative) Structure Activity Relationship ([Q]SAR) models and then combined them to create consensus models for different toxicity endpoints. Random Forest (RF) models were developed to cover a broader range of substances with high predictive capabilities using large datasets from CERAPP and CoMPARA for estrogen and androgen activity, respectively. By utilizing simple descriptors from open-source software and large training datasets, RF models were created to expand the domain of applicability for predicting endocrine disrupting activity and help in the screening and prioritization of extensive chemical inventories. In addition, RFs were trained to conservatively predict the activity, meaning models are more likely to make false-positive predictions to minimize the number of False Negatives. This work presents twelve binary and multi-class RF models to predict binding, agonism, and antagonism for estrogen and androgen receptors. The RF models were found to have high predictive capabilities compared to other in silico modes, with some models reaching balanced accuracies of 93% while having coverage of 89%. These models are intended to be incorporated into evolving priority-setting workflows and integrated strategies to support the screening and selection of chemicals for further testing and assessment by identifying potential endocrine-disrupting substances.
dc.description.abstract-fosrctranslation - fr
Les perturbateurs endocriniens (PE) sont un sujet de préoccupation constant en toxicologie et dans l'évaluation des risques chimiques. Cependant, des milliers de produits chimiques existants ne font pas l'objet des tests de toxicité nécessaires pour évaluer leur potentiel de perturbation endocrinienne, et c'est là que la toxicologie computationnelle peut jouer un rôle crucial. L'Agence américaine de protection de l'environnement (EPA) a lancé deux programmes, le Collaborative Estrogen Receptor Activity Project (CERAPP) et le Collaborative Modeling Project for Receptor Activity (CoMPARA), qui visent à prédire l'activité des œstrogènes et des androgènes, respectivement. L'US EPA a demandé à des groupes de recherche du monde entier de fournir des modèles de relations qualitatives (ou quantitatives) structure-activité ([Q]SAR) pour l'activité des récepteurs endocriniens, puis les a combinés pour créer des modèles consensuels pour différents paramètres de toxicité. Des modèles Random Forest (RF) ont été développés pour couvrir une plus large gamme de substances avec des capacités prédictives élevées en utilisant de grands ensembles de données du CERAPP et du CoMPARA pour l'activité des œstrogènes et des androgènes, respectivement. En utilisant des descripteurs simples issus de logiciels libres et de vastes ensembles de données d'entraînement, les modèles RF ont été créés pour élargir le domaine d'applicabilité de la prédiction de l'activité des perturbateurs endocriniens et aider à la sélection et à la hiérarchisation de vastes inventaires de produits chimiques. En outre, les RF ont été entraînés à prédire l'activité de manière conservatrice, ce qui signifie que les modèles sont plus susceptibles de faire des prédictions faussement positives afin de minimiser le nombre de faux négatifs. Ce travail présente douze modèles RF binaires et multi-classes pour prédire la liaison, l'agonisme et l'antagonisme des récepteurs d'œstrogènes et d'androgènes. Les modèles RF se sont avérés avoir des capacités prédictives élevées par rapport à d'autres modes in silico, certains modèles atteignant des précisions équilibrées de 93 % tout en ayant une couverture de 89 %. Ces modèles sont destinés à être incorporés dans des flux de travail évolutifs de définition des priorités et dans des stratégies intégrées pour soutenir la sélection et le choix des produits chimiques en vue d'essais et d'évaluations supplémentaires, en identifiant les substances potentiellement perturbatrices du système endocrinien.
dc.identifier.doi
https://doi.org/10.3389/ftox.2022.981928
dc.identifier.uri
https://open-science.canada.ca/handle/123456789/659
dc.language.iso
en
dc.publisher
frontiers
dc.subject - en
Health
Health and safety
dc.subject - fr
Santé
Santé et sécurité
dc.subject.en - en
Health
Health and safety
dc.subject.fr - fr
Santé
Santé et sécurité
dc.title - en
Novel machine learning models to predict endocrine disruption activity for high-throughput chemical screening
dc.type - en
Article
dc.type - fr
Article
Download(s)

Original bundle

Now showing 1 - 1 of 1

Thumbnail image

Name: Novel machine learning models to predict endocrine disruption activity for high-throughput chemical screening.pdf

Size: 1.55 MB

Format: PDF

Download file

Page details

Date modified: