Selección de algoritmos para proteínas.

Noticias

HogarHogar / Noticias / Selección de algoritmos para proteínas.

Aug 28, 2023

Selección de algoritmos para proteínas.

Informes científicos volumen 13,

Scientific Reports volumen 13, Número de artículo: 8219 (2023) Citar este artículo

381 Accesos

1 Altmetric

Detalles de métricas

El presente estudio investiga el uso de la selección de algoritmos para elegir automáticamente un algoritmo para cualquier tarea de acoplamiento proteína-ligando. En el proceso de descubrimiento y diseño de fármacos, la conceptualización de la unión proteína-ligando es un problema importante. Abordar este problema a través de métodos computacionales es beneficioso para reducir sustancialmente los requisitos de recursos y tiempo para el proceso general de desarrollo de fármacos. Una forma de abordar el acoplamiento proteína-ligando es modelarlo como un problema de búsqueda y optimización. Ha habido una variedad de soluciones algorítmicas a este respecto. Sin embargo, no existe un algoritmo definitivo que pueda abordar este problema de manera eficiente, tanto en términos de calidad como de velocidad de acoplamiento proteína-ligando. Este argumento motiva el diseño de nuevos algoritmos, adaptados a los escenarios particulares de acoplamiento proteína-ligando. Con este fin, este documento informa un enfoque basado en el aprendizaje automático para un rendimiento de acoplamiento mejorado y sólido. La configuración propuesta está completamente automatizada, operando sin ninguna opinión experta o participación tanto en el problema como en los aspectos del algoritmo. Como estudio de caso, se realizó un análisis empírico de una proteína conocida, la enzima convertidora de angiotensina humana (ECA), con 1428 ligandos. Para aplicaciones generales, se utilizó AutoDock 4.2 como plataforma de acoplamiento. Los algoritmos candidatos también se toman de AutoDock 4.2. Se eligen veintiocho algoritmos genéticos lamarckianos (LGA) claramente configurados para construir un conjunto de algoritmos. Se prefirió ALORS, que es un sistema de selección de algoritmos basado en un sistema de recomendación, para automatizar la selección de esas variantes de LGA por instancia. Para realizar esta automatización de selección, se emplearon descriptores moleculares y huellas dactilares de subestructura como características que caracterizan cada instancia de acoplamiento proteína-ligando objetivo. Los resultados computacionales revelaron que la selección de algoritmos supera a todos los algoritmos candidatos. Se informa una evaluación adicional en el espacio de algoritmos, discutiendo las contribuciones de los parámetros de LGA. En lo que respecta al acoplamiento proteína-ligando, se examinan las contribuciones de las características antes mencionadas, que arrojan luz sobre las características críticas que afectan el rendimiento del acoplamiento.

A raíz de las enfermedades emergentes y la creciente conciencia del deseo de mejorar el bienestar humano, ha habido un esfuerzo persistente para implementar nuevas innovaciones médicas. Una amplia gama de conceptos en el descubrimiento/diseño de fármacos (DD)1 han sido los principales temas de interés. El proceso de DD, sin embargo, requiere mucho tiempo y es costoso. Toda la tubería DD puede durar hasta 15 años, lo que requiere altos presupuestos y la participación de grandes grupos de científicos. En ese sentido, el proceso tradicional de DD a menudo conlleva un alto costo y riesgo y una baja tasa de éxito, factores que desalientan nuevas investigaciones y obstaculizan avances sustantivos en este campo2. Un factor importante que contribuye a este hecho es que la DD es esencialmente un problema de búsqueda del enorme espacio químico para detectar compuestos farmacológicos3,4. Podría decirse que el paso más crítico en este arduo proceso es identificar los nuevos compuestos químicos que podrían convertirse en nuevos medicamentos.

Los enfoques computacionales han sido prácticos, en general, ya que son mecanismos efectivos para hacer avanzar el proceso de DD a un ritmo mayor, con mejores resultados exitosos. DD asistido por computadora (CADD)5,6,7,8,9,10 es un término general que cubre esos procedimientos computacionales. Para ser específicos, CADD es una colección de herramientas matemáticas y basadas en datos que atraviesan disciplinas con respecto a su utilización en DD. Estas herramientas se implementan como programas de computadora y se acomodan junto con diversas metodologías experimentales para acelerar el descubrimiento de nuevas entidades químicas. Las estrategias CADD pueden clasificar rápidamente una gran cantidad de compuestos, identificando aciertos que se pueden convertir en clientes potenciales. Luego, los métodos de laboratorio se encargan de probar y finalizar el fármaco. Este proceso es iterativo y recíproco. Los resultados de los métodos CADD se aprovechan para diseñar compuestos que se someten a síntesis química y análisis biológico. La información derivada de esos experimentos se explota para desarrollar aún más las relaciones estructura-actividad (SAR) y los SAR cuantitativos (QSAR) que están integrados en los enfoques CADD.

Entre los métodos CADD, el acoplamiento molecular ha sido particularmente popular. El acoplamiento molecular es el proceso mediante el cual una molécula pequeña, generalmente denominada ligando, interactúa computacionalmente con una proteína u otras biomoléculas sin ningún trabajo de laboratorio. Proceduralmente, varía la conformación y orientación del ligando en pasos limitados y estocásticos. Su objetivo es buscar la mejor conformación de acoplamiento, o pose, que minimice la energía de unión. Los resultados que devuelven los programas de acoplamiento molecular suelen ser el valor de la energía de unión y un archivo complejo proteína-ligando que indica la afinidad y la posición de unión reales cuando el ligando se cocristaliza con el receptor. El acoplamiento molecular se ha beneficiado en diferentes procedimientos CADD, incluida la detección virtual, un proceso que consulta la unión de una gran cantidad de moléculas a un objetivo (biológico) de enfermedad particular.

Este estudio tuvo como objetivo aplicar la selección de algoritmos (AS)11,12 para sugerir automáticamente los algoritmos que mejor resuelven el problema de acoplamiento proteína-ligando (PLDP). La idea de AS está motivada por el Teorema de No Almuerzo Gratis (NFLT)13. El NFLT esencialmente establece que cada algoritmo realiza lo mismo en promedio cuando se aplica a todas las posibles instancias de problemas. Por lo tanto, cada algoritmo tiene sus propias fortalezas y debilidades, sin importar cuán complejo y avanzado sea. AS básicamente intenta elegir el algoritmo más adecuado de un grupo existente de algoritmos para abordar una instancia de problema dada de cualquier dominio. El objetivo de este trabajo fue identificar el algoritmo más adecuado de un grupo fijo de algoritmos PLDP para cada instancia PLDP dada. Se prefirió AutoDock414 ya que es una herramienta PLDP ampliamente utilizada, que proporciona un grupo de algoritmos favorable. Se utilizó un solucionador AutoDock existente, Lamarckian GA (LGA)15, que integra el Algoritmo genético (GA)7 y la Búsqueda local (LS)16, de manera parametrizada, de modo que se derivó un conjunto de algoritmos candidatos. Este paso resultó en 28 variantes de LGA, incluido el LGA con sus valores de parámetros predeterminados. Se usaron en 1428 casos de PLDP, cada uno relacionado con un ligando de 1428 ligandos y una única proteína diana de la enzima convertidora de angiotensina humana (ACE). Esos 28 algoritmos son administrados por ALORS17, que es un enfoque AS basado en sistemas de recomendación. Para poder usar AS, se deriva un conjunto de características para representar las instancias de PLDP, incluidos los descriptores moleculares ampliamente adoptados, así como las huellas dactilares de la subestructura. Después de esta configuración, se informa un análisis experimental en profundidad, comparando inicialmente cada variante LGA independiente con ALORS. Con respecto a las capacidades de análisis de ALORS, se investiga la similitud de los algoritmos candidatos, en términos de los valores de los parámetros LGA en este caso, y las similitudes de la instancia PLDP, además de la importancia de los parámetros LGA y las características de la instancia PLDP. La evaluación consiguiente proporciona conocimientos prácticos sobre cómo usar LGA con mayor rendimiento y qué considerar al resolver un escenario PLDP particular. En el resto del documento, la Sección "Métodos" analiza la literatura relevante tanto sobre PLDP como sobre AS después de describirlos formalmente. El método AS empleado para elegir algoritmos se detalla en la Sección "Resultados y discusión". En la sección "Conclusión" se proporciona un análisis y una discusión computacional completos.

El acoplamiento proteína-ligando juega un papel crucial en la investigación farmacéutica moderna y el desarrollo de fármacos. Los algoritmos de acoplamiento estiman la estructura del complejo ligando-receptor a través del muestreo y la clasificación. Primero toman muestras de la conformación de los ligandos en el sitio activo de un receptor. A continuación, clasifican todas las poses generadas en función de funciones de puntuación específicas o simplemente calculando la energía de enlace18. Los algoritmos de acoplamiento son, por lo tanto, capaces de simular la mejor orientación de un ligando cuando se une a un receptor de proteína.

La técnica de acoplamiento inicial se basa en el supuesto de llave y cerradura de Fischer19. Esta suposición trata tanto al ligando como al receptor como cuerpos rígidos con su afinidad proporcional a sus formas geométricas. En la mayoría de los sistemas elementales de cuerpo rígido, el ligando se busca en un espacio de rotación o traslación de seis dimensiones para adaptarse al sitio de unión. Posteriormente, Koshland propuso la teoría del ajuste inducido20, que implica que las interacciones de los ligandos modificarían continuamente el sitio activo de un receptor. En esencia, el procedimiento de acoplamiento se considera dinámico y adoptable. En las últimas décadas, se han desarrollado numerosas tecnologías y herramientas de acoplamiento, como DOCK21, AutoDock22, GOLD23 y Glide24. Además de las diferencias en la implementación de la investigación de poses 3D, el modelado de receptores de proteínas, etc., la principal variación entre ellos es la evaluación de la afinidad de unión, realizada por diferentes funciones de puntuación (SF)25. Las funciones de puntuación existentes se pueden categorizar como (1) basadas en campos de fuerza, (2) basadas en funciones empíricas y (3) basadas en conocimientos26. Debido a la heterogeneidad de cómo se modela la interacción proteína-ligando en diferentes funciones de puntuación, es probable que se pueda observar un rendimiento diverso si se aplica una función de puntuación a todas las tareas de acoplamiento.

Este estudio utilizó AutoDock4, ya que es un sistema de código abierto y ampliamente utilizado. Es el primer software de acoplamiento que puede modelar ligandos con total flexibilidad27. AutoDock4 consta de dos componentes de software fundamentales: AutoDock y AutoGrid. Si bien AutoDock es el software principal, AutoGrid calcula la energía no covalente de las interacciones y produce un mapa de cuadrícula de potencial electrostático28. Como característica de AutoDock427, es posible modelar la flexibilidad del receptor cambiando las cadenas laterales. Para lidiar con la flexibilidad de la cadena lateral, se proporciona un método de muestreo simultáneo. Mientras que las otras cadenas permanecen rígidas, las cadenas seleccionadas por el usuario se muestrean mediante un determinado método con el ligando. Con AutoGrid, la parte rígida se procesa como un mapa de energía de la red. Los mapas de cuadrícula junto con la parte flexible del receptor dirigen el proceso de acoplamiento de los ligandos seleccionados28.

AutoDock4 adopta la función de puntuación de campo de fuerza basada en la física con potenciales de enlaces de hidrógeno direccionales, electrostáticos y de van der Waals derivados de una versión anterior del campo de fuerza AMBER29. Además, se incluyen un término de desolvatación aditivo por pares basado en cargas parciales y una penalización de entropía conformacional simple26. La función de puntuación consta de términos VDW electrostáticos y de Lennard-Jones:

donde \(A_{ij}\) y \(B_{ij}\) son los parámetros VDW, \(r_{ij}\) se refiere a la distancia entre el átomo de proteína \(i \) y el átomo de ligando \( j \), y \(q_{i}\) y \(q_{j}\) son cargas atómicas. \(\varepsilon \left( {r_{ij} } \right)\) se introduce como una constante dieléctrica simple dependiente de la distancia en el término coulombiano. Sin embargo, el efecto de desolvatación no se puede representar en el término coulombiano26. El efecto solvente ignorado conducirá a una función de puntuación sesgada que no considerará esos ligandos de carga relativamente baja.

Además, se establece una función de puntuación25 basada en el conocimiento sobre la base de la mecánica estadística de los pares de átomos que interactúan. Se introduce un término de desolvatación aditiva por pares, que se obtiene directamente de la frecuencia de aparición de pares de átomos mediante la relación de Boltzmann. Los potenciales energéticos derivados de la información estructural también se incluyen en la determinación de las estructuras atómicas26. Los potenciales se calculan por

donde \(\kappa_{B}\) es la constante de Boltzmann, \(T \) es la temperatura absoluta del sistema, \(\rho \left( r \right)\) es la densidad numérica de la proteína-ligando par de átomos a la distancia \(r \), y \(\rho *\left( r \right)\) es la densidad del par cuando las interacciones interatómicas son cero. La inversa de Boltzmann representa los potenciales de fuerza media, no los verdaderos potenciales, que son bastante diferentes del sistema fluido simple26. Así, aunque excluye los efectos de volumen, composición, etc., aún ayuda a convertir las distancias átomo-átomo en una función adecuada para sistemas proteicos complejos.

La mayoría de los usuarios de AutoDock4, así como los usuarios de otras plataformas de acoplamiento molecular, tienden a seguir el protocolo de acoplamiento recomendado con los valores predeterminados proporcionados. Esta práctica se sigue principalmente para evitar modificar el programa de acoplamiento. Además, algunos programas de acoplamiento, incluido AutoDock4, solo brindan un conjunto limitado de opciones para ejecutar la búsqueda con una función de puntuación particular, pero todavía quedan muchas otras combinaciones. En el caso de AutoDock4, la elección recomendada de algoritmo es el algoritmo genético de Lamarckian (LGA). Dicho esto, es posible mostrar escenarios de acoplamiento donde LGA se desempeña relativamente mal.

La selección de algoritmos apropiados para la resolución de problemas en una variedad de contextos ha atraído una atención creciente en las últimas décadas30. Un fenómeno conocido como complementariedad de desempeño argumenta, con base en investigaciones empíricas, que un algoritmo puede funcionar bien en un entorno mientras que otros funcionan mejor en otras condiciones12.

Se propuso y examinó el concepto de selección de algoritmos por instancia11. Esta idea se refiere a encontrar qué algoritmo es el mejor para una instancia dada12. La razón fundamental para el examen en profundidad de este algoritmo es la selección de un algoritmo adecuado de una gran cantidad de diversos algoritmos existentes. Sin embargo, tardó décadas en generalizarse para ser aplicado para abordar la satisfacibilidad booleana (SAT) y otros problemas combinatorios difíciles31. En el procedimiento designado, se desarrolla una regla entre un algoritmo apropiado y un escenario determinado. Por lo tanto, en cuestiones de optimización, la selección de algoritmos por instancia se ha vuelto prominente.

Como se ha demostrado que la aplicación de métodos de aprendizaje automático es competente en muchas tareas, se ha estudiado un método automático de conexión de reglas12. Se han proporcionado instrucciones32 detalladas y perspicaces sobre el primer proceso de selección automática de algoritmos y se ha abordado una serie de cuestiones importantes, incluida la selección de regresión o clasificación y la distinción entre características dinámicas y estáticas. Sin embargo, se han omitido los problemas continuos. Además, se ha propuesto una generalización al problema de optimización continua33 destacando los beneficios de los problemas discretos.

El componente principal del enfoque propuesto es el módulo de selección de algoritmos (AS) como se muestra en la figura 1. Es responsable de elegir un algoritmo por instancia y de hacer coincidir un algoritmo adecuado para abordar una instancia determinada (PLDP). Además, con referencia a la descripción anterior de AS, inicialmente se debe proporcionar un grupo de algoritmos PLDP, A. Aunque estos algoritmos se pueden determinar y utilizar de forma fija, las estrategias de generación de carteras de algoritmos34,35,36 se pueden incorporar para derivar algoritmos candidatos. Junto con un conjunto de algoritmos, se debe acomodar un conjunto de instancias \(I\), para modelar el sistema AS. Aunque AS es una estrategia independiente del problema, el comportamiento de AS se ve muy afectado por la elección de esas instancias. Si se planea usar el AS para realizar una familia bastante específica de tareas de acoplamiento, \(\mathcal{I}\) puede incluir las instancias de esa familia en particular. De lo contrario, para tener un modelo AS generalizado, es beneficioso que \(I\) contenga una amplia gama de diversas instancias de PLDP. En el estudio actual, solo hay una proteína objetivo, pero un conjunto bastante grande de ligandos. Por lo tanto, cualquier modelo AS construido aquí es específico para esa proteína objetivo y tiene cierto nivel de generalidad con respecto a los ligandos. En relación con este aspecto de diversidad, tener una alta diversidad a través de la complementariedad en \(\mathcal{A}\) puede potencialmente ofrecer modelos AS mejorados y robustos. La complementariedad, aquí, denota tener algoritmos con diferentes capacidades de resolución de problemas. Mientras que un algoritmo funciona bien en cierto tipo de instancia, otro algoritmo puede funcionar bien en instancias donde los algoritmos anteriores funcionan mal. Los \(A\) y \(I\) elegidos se utilizan luego para generar datos de rendimiento, \(P(A, I)\), que indican el rendimiento de cada algoritmo candidato, \(a\), en cada instancia del problema. , \(P(a, i) = {p}_{ai}\). Durante este paso de generación de datos de rendimiento, es fundamental tener en cuenta la naturaleza estocástica/no determinista de los algoritmos candidatos. Esto significa que si un algoritmo puede ofrecer una solución diferente después de cada ejecución en la misma instancia exacta del problema, sería engañoso ejecutar ese algoritmo solo una vez y usar ese valor en \(P\). En tales casos, es razonable ejecutar esos algoritmos varias veces y usar sus valores medios o medianos como indicadores de rendimiento por instancia. Un último elemento requerido para construir un modelo AS es especificar el número de características, \(F\), describiendo adecuadamente las características de las instancias del problema de destino. Con la manipulación de datos o las conversiones de formato de datos, este paso se puede omitir ya que las características se derivan automáticamente37. De lo contrario, con la ayuda de los expertos en química, se pueden recopilar características de instancia razonablemente representativas. Sin embargo, es potencialmente posible encontrar tales características en referencia a la literatura relevante, sin la necesidad de la presencia real de expertos. Dicho esto, dependiendo del problema de destino, podría ser lo suficientemente bueno utilizar únicamente medidas y valores estadísticos básicos logrados a través de puntos de referencia38. En este punto, tradicionalmente, se puede construir un modelo AS, en forma de predicción de rendimiento, \(\Theta :F\left(I\right)\to P\left(A,I\right)\), u otro pueden emplearse las estrategias AS existentes.

Ilustración de selección de algoritmo. El proceso tradicional de selección de algoritmos (AS) por instancia.

Siguiendo el marco dado, la Fig. 2 visualiza la configuración AS realizada en este artículo. El paso de generación de datos se logra en base a AutoDock 4.2. Para el método AS, se recluta una técnica existente, ALORS117. ALORS es un sistema de recomendación de algoritmos, basado en filtrado colaborativo (CF)39. Se ha aplicado con éxito para diferentes decisiones de selección en diversos dominios de problemas40,41,42,43, incluidos aquellos en un problema de predicción de estructura de proteína relevante44,45. CF es un tipo de enfoque de recomendación, que predice cuánto les gustan a los usuarios ciertos elementos, como películas y productos. Hace predicciones basadas en la relación de entradas similares tanto a nivel de usuario como de elemento. A diferencia de otros métodos de recomendación, CF funciona con entradas dispersas. ALORS acomoda la idea de CF al considerar las instancias de problemas como los usuarios mientras considera los algoritmos como los elementos; es decir, cuánto le gusta un algoritmo a una instancia, según el éxito relativo del algoritmo en comparación con todos los algoritmos candidatos. Al igual que las aplicaciones CF, ALORS también funciona con datos basados ​​en rangos, los rangos de todos los algoritmos presentes en todas las instancias del problema. En ese sentido, ALORS realiza la selección de algoritmos (AS) como una tarea de predicción de rango. Sin embargo, a diferencia de los sistemas AS existentes, ALORS realiza predicciones de clasificación indirectamente. Esencialmente, un modelo de predicción derivado de ALORS es un modelo de característica a característica, como se detalla en el Algoritmo 1. Mapea un conjunto de características cuidadosamente seleccionadas que caracterizan las instancias del problema de destino a otro grupo de características de la instancia. El último conjunto de funciones es el que se extrae automáticamente de los datos de rendimiento de clasificación mediante la factorización matricial (MF). Para ser específicos, la Descomposición de Valor Singular (SVD)46 se utiliza como el método MF para la reducción de la dimensionalidad.

Marco de ALORS para el acoplamiento de proteínas y ligandos. Todos los ligandos se acoplan con ACE utilizando 28 algoritmos, cada uno con una configuración de parámetros diferente en AutoDock4 durante el procedimiento de generación de datos. La configuración del algoritmo que produce las puntuaciones de acoplamiento más bajas promediadas para 50 ejecuciones se selecciona como el mejor algoritmo para la instancia dada, como la configuración del algoritmo 28 (A28). El modelo ALORS se entrena utilizando descriptores moleculares y huellas dactilares, y las mejores etiquetas de algoritmo correspondientes a cada ligando. Nuestro modelo utiliza características de un solo ligando nuevo para determinar la mejor configuración de algoritmo para la inferencia.

ALORS aquí se aplica con k = 5 con respecto al rango de MF por SVD. Con respecto al componente de modelado de Random Forest (RF)47, la cantidad de árboles se establece en 100, que es el valor predeterminado en Scikit.

El conjunto de algoritmos candidatos se compone de 28 algoritmos, mientras que el número de escenarios de acoplamiento, instancias, es de 1428. Los algoritmos se especifican esencialmente mediante el establecimiento de distintas configuraciones de parámetros de un algoritmo genético-lamarckiano (LGA), como se detalla en la Tabla 1. La evaluación es realizado a través de una validación cruzada de diez veces (10-cv).

Los ligandos son moléculas aprobadas por la Administración de Drogas y Alimentos de los Estados Unidos (FDA) 2 en la base de datos ZINC1548. La enzima convertidora de angiotensina humana (ECA), una proteína de membrana crítica para el virus SARS-COV y la función renal y cardiovascular, se elige como receptor objetivo (PDB DOI: 1O86)49. Los archivos de ligando originales están en formato MOL2 y se convierten a formato PDB para acoplarse a través de Openbabel50. Los receptores y ligandos son preprocesados ​​por AutoDock Tools e incluyen la adición de enlaces de hidrógeno y cargas en forma de PDBQT. Todo el proceso de acoplamiento se realiza a través de AutoDock 4.2. La semilla aleatoria se fija para la repetibilidad del experimento. Cada algoritmo está configurado para ejecutarse 50 veces para cada ligando y el número de evaluaciones de energía se establece en 2 500 000. Ambos están fijados para controlar los recursos computacionales que puede utilizar cada algoritmo. El resto de las configuraciones son predeterminadas con los detalles descritos en la guía del usuario 3 de AutoDock4. Para la extracción de características, se usa RDKit51 para generar descriptores moleculares, y PaDEL-Descriptor52 calcula las huellas dactilares de la subestructura de PubChem. El descriptor molecular son los valores numéricos de las propiedades de una molécula calculadas por algoritmos51. Después de la eliminación de los descriptores con el valor 0 en todos los ligandos, se obtienen 208 características. Después de este paso, se descartan las características con casi los mismos valores en diferentes ligandos, lo que da como resultado 119 características utilizables. Todas las características se determinan a través de la normalización min-max, ajustando los valores de cada característica a [0, 1]. PubChem Substructure Fingerprint es una lista ordenada de valores binarios (0/1), que representa la existencia de una subestructura específica, como una estructura de anillo53. En nuestro caso, para cada ligando, la longitud de la lista codificada en binario es 881.

La Figura 3 ilustra los rangos de cada algoritmo en todos los escenarios de acoplamiento para AVG y BEST, respectivamente. Se puede ver que mientras algunos algoritmos funcionan mejor que otros en general, sus rendimientos relativos varían. Más allá de eso, no existe un algoritmo definitivo que supere consistentemente a los algoritmos restantes en todas las instancias de acoplamiento proteína-ligando. Esta vista sugiere que es probable que la selección de algoritmos supere a todos estos algoritmos haciendo coincidir automáticamente los algoritmos correctos con las instancias que los algoritmos seleccionados pueden resolver de manera efectiva.

Rangos de algoritmos de acoplamiento. (A) Los rangos de los algoritmos de acoplamiento en todas las instancias, según el rendimiento de AVG. (B) Las clasificaciones de los algoritmos de acoplamiento en todas las instancias, según el MEJOR rendimiento.

La Tabla 2 informa la clasificación de cada algoritmo independiente además de ALORS. Todos esos algoritmos se acomodan como los algoritmos candidatos para ALORS. Se entregan dos evaluaciones de desempeño separadas. El primero se enfoca en el desempeño promedio de los algoritmos, considerando que todos los algoritmos utilizados son estocásticos. El segundo caso se relaciona con las mejores soluciones de acoplamiento de todas las ejecuciones en cada instancia de acoplamiento. Para ambos escenarios, ALORS supera a todos los algoritmos independientes, mientras que la diferencia de rendimiento en el caso AVG es más drástica que en el caso BEST.

En general, ALORS ofrece constantemente el rendimiento superior y más sólido en todas las instancias de acoplamiento. El aspecto de robustez se puede verificar a partir de los valores de desviación estándar. Echando un vistazo más de cerca a los resultados y refiriéndose a los rendimientos de AVG, A6 resulta ser el mejor algoritmo independiente, lo que significa que se usa tradicionalmente como el único algoritmo para todas las instancias de acoplamiento, a diferencia de AS, eligiendo un algoritmo de acoplamiento para cada instancia de acoplamiento. . Mientras que la clasificación media de A6 es 7,90, ALORS da como resultado una clasificación media de 6,00. A6 le sigue A7, con una clasificación media de 7,91. Además, se considera que la configuración del algoritmo predeterminado que está integrado en AutoDock, A2, es el tercer mejor enfoque independiente en los escenarios de prueba actuales. En cuanto a la entrega de los MEJORES resultados de acoplamiento, a diferencia del caso AVG, A8 ofrece el rango medio superior de 6,80, entre los algoritmos constituyentes, siguiendo el rango medio de 6,75 de ALORS. A1 ofrece un rendimiento bastante cercano a A8, con una calificación media de 6,82. El desempeño más cercano después de A1 es A9 con una clasificación media de 7,09. La configuración predeterminada de A2 ocupa el quinto lugar entre estos métodos independientes.

La Figura 4 visualiza los cambios de rango promedio para AVG y BEST, en referencia al gráfico superior. Es de destacar que la tendencia de rendimiento relativo entre todos los algoritmos se mantiene algo. Los gráficos restantes muestran los métodos de acoplamiento ordenados en AVG y BEST, por separado. Con solo analizar visualmente los gráficos, se pueden detectar métodos estrechamente clasificados, en grupos. Por ejemplo, A5, A19, A20, A25, A26 y A27 ofrecen claramente el peor rendimiento entre todos los algoritmos.

Rangos medios de algoritmos de acoplamiento. Las clasificaciones medias de todos los métodos de acoplamiento probados. (A) comparación relativa tanto en AVG como en BEST, (B) comparación ordenada en AVG, (C) comparación ordenada en BEST.

La Figura 5 ilustra las similitudes entre todos los algoritmos constituyentes en términos de agrupamiento jerárquico.

Agrupación de Algoritmos de Acoplamiento. Una agrupación jerárquica de los algoritmos de acoplamiento constituyentes basados ​​en las características latentes extraídas por SVD (k = 5) en el caso AVG.

En el nivel más bajo de los clústeres, los siguientes grupos de algoritmos son muy similares: {A8, A9}, {A10, A21}, {A2, A7}, {A11, A12}, {A5, A19}, { A26, A27}, {A22, A23}, {A14, A17}, {A15, A16}. Con referencia a la Tabla ~ \ref{algorithm-configurations}, excepto el par {A14, A17}, todos los algoritmos agrupados vienen con la misma configuración con referencia a sus tamaños de población y tasas de mutación. La tercera variación utilizada para utilizar una configuración diferente a nivel de algoritmo, el tamaño de la ventana, no provoca cambios drásticos en el comportamiento de esos algoritmos.

Con respecto a este aspecto de la similitud del algoritmo, al mantener solo un algoritmo de los similares, una subcartera potencial que ofrece un rendimiento comparable sería {A1, A2, A3, A4, A5, A6, A8, A10, A11, A13, A14, A15 , A18, A20, A22, A24, A25, A26, A28}, con 19 algoritmos de 28 opciones. La cartera se puede reducir aún más haciendo referencia a grandes grupos de algoritmos subiendo un nivel más en el grupo jerárquico. Entonces, un portafolio de ejemplo sería {A1, A3, A6, A13, A14, A18, A20, A24, A28}.

La Figura 6A visualiza la importancia de las características de la instancia PLDP. El aspecto de importancia se determina a través de los valores de importancia de Gini explorados al construir los modelos de predicción Random Forest (RF) bajo ALORS. Entre estas 119 características, 4 de ellas obtienen la importancia de Gini mucho más alta, por lo que se convierten en las significativamente más críticas en comparación con el resto. Las características correspondientes son.

NumRotatableBonds

BalabanJ

Kappa1

Kappa2

Gini Importancia de las características. Los de blues son los significativamente más críticos que el resto en cuanto a sus valores de Gini. (A) Los valores de importancia de Gini de todas las funciones de la instancia de acoplamiento, (B) Los valores de importancia de Gini de las funciones \(F_{md,top9}\), (C) Los valores de importancia de Gini de \(F_{md, top4 + sf,top54}\) características, (D) Los valores de importancia de Gini de las características de \(F_{md,top9 + sf,top54}\), (E) Los valores de importancia de Gini de las características de \(F_{sf, top54}\) características.

Además de los descriptores moleculares como las características, \(F_{md}\), las huellas dactilares de la subestructura, \(F_{sf}\), se utilizan para realizar AS. Las huellas dactilares son formas binarias de características, cada una de las cuales representa la presencia de una subestructura altamente específica. En ese sentido, es relativamente difícil beneficiarse de las características individuales como en el caso de los descriptores moleculares. La Tabla 3 informa el rendimiento de ALORS con diferentes conjuntos de funciones. Los resultados indican que \(F_{md}\) es más informativo que \(F_{sf}\) como se esperaba. Centrándose en \(F_{md}\), se evalúan adicionalmente dos subconjuntos, que son \(F_{md,top4}\) y \(F_{md,top9}\). Son esencialmente las características principales medidas por su Valores de Gini extraídos del modelo ALORS original. Como se mencionó anteriormente, \(F_{md,top4}\) denota las principales características significativamente influyentes, mientras que \(F_{md,top9}\) tiene 5 características adicionales además de las de \(F_{md,top4}\) Se eligen teniendo en cuenta que el valor de importancia de Gini tiene un corte de 0,15. Ambos subconjuntos son lo suficientemente buenos como para superar a los algoritmos independientes en lugar de utilizar las 119 funciones completas. Sin embargo, el subconjunto más grande \(F_{md,top9}\) proporciona mejores resultados que \(F_{md,top4}\). La Figura 6B visualiza las contribuciones de cada característica de \(F_{md,top9}\) cuando se construye un modelo AS con \(F_{md,top9}\). Se sigue un enfoque similar para \(F_{sf}\), lo que resulta en un subconjunto de 54 características, \(F_{sf,top54}\). En relación con eso, la Fig. 6E ilustra la importancia de cada una de estas características. El uso de 54 funciones de 881 proporcionó una mayor mejora del rendimiento. Teniendo en cuenta que el conjunto completo de funciones de huellas dactilares es bastante grande, se crea un modelo ALORS adicional utilizando un mayor número de trenzas para RF, aumentando de 100 a 500. Aunque se logra un rendimiento superior con el rango medio de 6,39 5,62 en comparación con la configuración predeterminada de ALORS , el rendimiento sigue siendo peor que el escenario que utiliza \(F_{sf}\),top54. La evaluación final de las características se lleva a cabo utilizando tanto \(F_{md}\) como \(F_{sf}\), en particular sus subconjuntos antes mencionados, \(F_{md,top4 + sf,top54}\) y \(F_{md,top9 + sf,top54}\). Estas combinaciones mejoraron tanto la suela, \(F_{md}\) como \(F_{sf}\), resultados basados ​​en subconjuntos de características. Este resultado sugiere que las huellas dactilares de la subestructura vienen con información adicional que no proviene directamente de los descriptores moleculares. La importancia de la función correspondiente se proporciona en la Fig. 6C y D para \(F_{md,top4 + sf,top54}\) y \(F_{md,top9 + sf,top54}\) respectivamente.

Teniendo en cuenta la importancia de Gini, se eligen las características principales 4, principales 9 y principales 40 para analizar el espacio de la instancia. Para visualizar las instancias en el espacio bidimensional, se aplican el análisis de componentes principales (PCA) y la incrustación de vecinos estocásticos distribuidos en t (t-SNE) para reducir esas características en 2 dimensiones. Las representaciones de instancias logradas por PCA y t-SNE se muestran en la Fig. 7A. En comparación con los componentes de PCA, t-SNE ofrece clústeres de instancias más separados. Por observación y análisis, la selección de las 9 características resulta ser la más discriminante. Por lo tanto, se aplica el algoritmo k-means54 para agrupar las instancias utilizando esas 9 características. Después de probar diferentes valores de k ∈ [2, 15], el mejor k se determina como 2 con respecto a la puntuación de silueta que se deriva como los coeficientes medios de silueta55 en todos los puntos de instancia.

Visualización de características con PCA, t-SNE y Kmeans. (A) Visualización de características 4, 9 y 40 con PCA y t-SNE. (B) En el espacio 2-D PCA y t-SNE, K significa resultados de clasificación de 9 características. (C) En el espacio 2-D PCA y t-SNE, K significa resultados de clasificación de 5 características latentes, extraídas por SVD, para un conjunto de características diferente.

Los resultados finales del agrupamiento se muestran en la Fig. 7B. Como indica la puntuación, es mejor dividir las 9 funciones principales en dos grupos. Se observa que hay una clara división en el medio de los datos. Si bien podemos encontrar una distribución de puntos más diversa en t-SNE, la división es relativamente indistinta. En PCA, donde los distintos grupos se agrupan de forma más estrecha, la agrupación es más clara para el otro conjunto de funciones si se divide en dos grupos. Además, en t-SNE, la parte de la esquina superior izquierda de -10 a 40 PC2 está más concentrada, mientras que la otra parte está dispersa y dispersa. La Figura 7C refleja una situación sorprendente del segundo conjunto de características donde se utilizan cinco características latentes. La cantidad de datos en estos dos grupos se distribuye de forma heterogénea, con un grupo superando en gran medida al otro. En consecuencia, se puede capturar el patrón de un grupo en particular.

Cabe señalar que la puntuación de la silueta no puede indicar la situación cuando los puntos solo se consideran como un grupo completo. Aunque no tenemos idea de cómo se desempeña un grupo usando la evaluación de puntaje, aún podemos observar que los puntos en realidad están dispersos uniformemente en PCA o t-SNE. Esto significa que es mejor considerarlos como un grupo. Es decir, no existe una división clara obvia o un patrón agrupado al considerar estas características. Como se muestra en la Fig. 8, el grupo 0 como tipo 0, indicado por el color verde, está agrupado más cerca en general. El grupo 0 muestra una mediana más alta a excepción de BalabanJ. Aunque la mayoría de los datos en el grupo 0 están agrupados, hay más valores atípicos en comparación con el grupo 1. Sorprendentemente, kappa3 muestra un patrón extraño en el que los datos se recopilan extremadamente con varios valores atípicos de dos a tres veces más grandes que la mayoría de los datos.

Diagrama de caja de características. El tipo 0 denota el mismo grupo 0 al realizar PCA y t-SNE y el tipo 1 denota el grupo 1. Las distribuciones de 9 características seleccionadas en los dos grupos se dan para demostrar los patrones posibles para cada grupo. El grupo 0 muestra un grupo agrupado con más valores atípicos en comparación con el grupo 1.

Las Figuras 9A y B muestran la diferencia conformacional y de interacción de una instancia acoplada con el algoritmo predeterminado y el mejor algoritmo. A medida que se observen más enlaces de hidrógeno, es probable que la posición de acoplamiento predicha por la mejor configuración de parámetros produzca una unión más estable con la proteína receptora en comparación con la posición predicha por el algoritmo con la configuración de parámetros predeterminada.

Gráfico de interacción del ligando ZINC000000000053 y ACE. (A) con la configuración de parámetros predeterminada, (B) con la mejor configuración de parámetros en AutoDock4.

Como se mencionó anteriormente, utilizando los descriptores químicos proporcionados por la biblioteca de Python de código abierto RDKit51, se generan 208 características, descriptores moleculares, para cada una de las moléculas involucradas en el proceso de acoplamiento. Refiriéndose a su importancia, comenzando por la más importante, las 9 características principales son (1) el número de enlaces giratorios, (2) el índice J de Balaban, (3.4.5) el índice de forma molecular Kappa que incluye Kappa 1,2, 3, (6) la estimación cuantitativa del índice de similitud con las drogas, (7) el índice de estado electrotopológico, (8) el índice de complejidad molecular de Bertz y (9) la ecualización parcial del índice de electronegatividad orbital. Aunque ALORS ha destacado estas características, existe una necesidad adicional de examinar sus aplicaciones en los estudios QSAR para determinar si pueden comprenderse en el proceso de acoplamiento.

El número de enlaces giratorios puede reflejar la flexibilidad de una molécula56. Estudios previos sugieren que este descriptor molecular ayuda a diferenciar entre fármacos y otras moléculas pequeñas ya que los fármacos tienen menor flexibilidad57,58. Esencialmente, el acoplamiento molecular es un proceso de búsqueda de las mejores posiciones y poses en un espacio de acoplamiento restringido. Variar el número de enlaces giratorios afecta directamente las poses de acoplamiento potenciales devueltas por AutoDock. Por lo tanto, es importante ajustar el número de rotaciones de enlace, cuando los ligandos se preprocesan a través de AutoDock Tools27.

El índice J de Balaban es uno de los índices topológicos que tratan a las moléculas como gráficos conexos, que representan la estructura molecular por un solo número numérico59. El Índice J mejora el poder de discriminación especialmente para los isómeros ya que emplea las sumas promedio de distancias dentro de la molécula. Es sensible al número de enlaces o diferencia de átomos. El cálculo del índice es computacionalmente eficiente preservando la información física y estructural de la molécula60,61.

El índice de forma molecular Kappa es otro tipo de índice topológico que se centra en la información de forma molecular. El índice de forma molecular kappa cuantifica la diferencia entre la conformación más compleja y la potencialmente más simple62. Kappa 1, 2 y 3 son capaces de discriminar entre isómeros que no se pueden distinguir si se miden por el número de átomos o enlaces63. Por lo tanto, los índices de forma molecular kappa son descriptores confiables para medir la conectividad general de una molécula.

QED es la abreviatura de estimación cuantitativa de la semejanza con las drogas, que se propuso para proporcionar una guía práctica en la selección de drogas como una alternativa refinada a la regla de cinco de Lipinski64. QED es un índice integrado que comprende 8 propiedades físicas de las moléculas, incluido el coeficiente de partición octanol-agua, el número de donantes y aceptores de enlaces de hidrógeno, el área de superficie polar molecular, el número de enlaces giratorios, el número de anillos aromáticos y el número de alertas estructurales. QED se ha aplicado en la detección virtual de grandes bases de datos de compuestos para filtrar moléculas favorables65 y para ayudar a construir y comparar modelos de aprendizaje profundo para el diseño de fármacos de novo66. La fortaleza de QED también se refleja en la importancia otorgada por Gini.

El descriptor EState_VSA compromete tanto EState (estado electrotopológico) como el índice VSA. El índice EState contiene información de topología a nivel atómico y molecular67. A diferencia del índice de forma molecular Kappa, que enfatiza la estructura de las moléculas, el índice de estado electrotopológico revela la electronegatividad de cada átomo, así como el efecto electrónico ponderado. Ha sido validado por su fuerte correlación con el cambio de RMN de 17O en éteres y la afinidad de unión de varios ligandos68,69. VSA es el valor del área superficial de Van der Waals de un átomo, y se utiliza para determinar si se calculan los índices EState. Con respecto al acoplamiento molecular, la interacción electrostática entre el ligando y el receptor es un componente importante de la evaluación de la energía en el cálculo del campo de fuerza semiempírico de AutoDock, lo que puede explicar por qué ocupa el octavo lugar entre 208 descriptores.

El índice de Bertz se definió para representar la complejidad de una molécula derivada cuantitativamente de gráficos moleculares70. Comprende dos propiedades de la molécula: el número de líneas en el gráfico lineal y el número de heteroátomos. Como tanto la heterogeneidad como la conectividad se integran en un solo índice, se extrae abundante información de la molécula. BertzCT es particularmente útil en síntesis orgánica. Se puede utilizar para monitorear la complejidad de los productos sintéticos y, por lo tanto, evaluar la ruta de síntesis prevista antes de la implementación71.

PEOE_VSA es otro descriptor híbrido que consiste en la ecualización parcial de la electronegatividad orbital y el área superficial de Van der Waals. La ecualización parcial de la electronegatividad orbital (PEOE) se presentó por primera vez para evaluar la reactividad en el diseño de síntesis química72. PEOE obtiene las cargas parciales en función de la electronegatividad del orbital atómico de forma iterativa a lo largo de toda la molécula. La electronegatividad de los átomos se puede calcular con precisión en moléculas orgánicas complejas incluso con efectos de extracción y donación de electrones. PEOE se probó primero para modelar el sabor de los compuestos y luego se aplicó a los estudios QSAR que incluían la predicción de la actividad anestésica y la inhibición de la integrasa del VIH73,74. Para simular el entorno in vivo, se recomienda encarecidamente asignar cargas parciales a los ligandos para obtener una energía de enlace fiable en AutoDock.

Este documento tiene como objetivo presentar y seguir evaluando ALORS como un sistema de selección de algoritmos basado en un sistema de recomendación que selecciona automáticamente las variantes de LGA por instancia en AutoDock. Se han empleado características que incluyen descriptores moleculares y huellas dactilares pertenecientes a cada instancia de acoplamiento proteína-ligando para cuantificar compuestos químicos. El estudio ha demostrado que ALORS ofrece los mejores resultados en comparación con todos los algoritmos candidatos de un grupo de algoritmos fijos. Se han destacado nueve características como determinantes significativos de la interacción proteína-ligando y se analizan para inspirar la exploración de características químicas que son fundamentales para el rendimiento del acoplamiento. Los hallazgos de esta investigación enfatizan el uso de un selector de algoritmo adecuado y características para abordar mejor una tarea de acoplamiento molecular que busca compuestos farmacológicos. ALORS tiene el potencial de convertirse en la opción preferida para realizar tareas de acoplamiento proteína-ligando para la investigación CADD. Además, los resultados de nuestro estudio se suman a las aplicaciones en rápida expansión de las selecciones automáticas de algoritmos.

Sin embargo, una limitación de nuestro estudio es que ACE fue la única proteína adoptada para la generación de datos de acoplamiento. Aunque ALORS funciona bien en el caso de acoplamiento con ACE; sin embargo, queda por determinar la generalización de nuestro modelo a otras proteínas. Se deben incorporar más proteínas a nuestro modelo para aumentar la diversidad de la interacción proteína-ligando. Por lo tanto, ampliar los escenarios de acoplamiento con diversas proteínas diana puede presentar una evaluación más completa del rendimiento de ALORS como herramienta AS. Al mismo tiempo, las características seleccionadas a mano de las moléculas derivadas de la evidencia empírica son opciones igualmente viables. Las funciones seleccionadas a mano que son más específicas y relevantes se pueden combinar con funciones seleccionadas por algoritmo para lograr una mayor relevancia y precisión.

También se recomiendan otros programas de acoplamiento de proteínas y ligandos, como DOCK, Glide y CABSdock, y el algoritmo subyacente de cada plataforma de acoplamiento puede adaptarse a situaciones de acoplamiento específicas. AutoDock funciona bien en el acoplamiento automatizado de ligandos a macromoléculas debido a su algoritmo de búsqueda LGA mejorado y su función de puntuación empírica sin unión, pero queda por ver si los programas de acoplamiento exhaustivos basados ​​en búsquedas como Glide y DOCK que utilizan el algoritmo de coincidencia geométrica funcionan mejor. en otras áreas. Se puede dirigir un mayor enfoque hacia la evaluación y selección automática de los mejores programas de acoplamiento en diferentes escenarios de acoplamiento.

Durante el estudio, notamos la creciente prevalencia de la aplicación de redes neuronales (NN) en la predicción de la interacción proteína-ligando. Las redes neuronales, que están compuestas por capas y neuronas para reconocer patrones como vectores numéricos, imágenes, textos, sonidos e incluso series temporales, son muy utilizadas para tareas de clasificación o predicción. Bajo el marco de las redes neuronales, las redes neuronales gráficas (GNN) se basan en la caracterización de datos como gráficos que consisten en nodos y bordes y sobresalen en la captura de la relación no lineal en imágenes en comparación con los modelos tradicionales de regresión o clasificación75. Los GNN son particularmente útiles para datos de gráficos que tienen información relacional. Como las moléculas son estructuras unidas, la información natural de los productos químicos se puede representar como gráficos moleculares irregulares. Las características basadas en imágenes derivadas de moléculas generan resultados más prometedores que las características tradicionales derivadas de descriptores moleculares76. En consecuencia, se pueden poner más esfuerzos en la implementación de GNN para una mejor predicción de la interacción proteína-ligando.

El receptor, ACE, se puede encontrar con PDB DOI: 1O86, y los ligandos de acoplamiento se encuentran en la base de datos ZINC15: https://zinc15.docking.org/catalogs/dbfda/.

Enzima convertidora de angiotensina humana

Algoritmo genético lamarckiano

Sistema de recomendación de algoritmos

Descubrimiento/diseño de fármacos

Descubrimiento/diseño de fármacos con ayuda informática

Estructurar relaciones de actividad

Relaciones estructura actividad cuantitativa

Selección de algoritmo

Problema de acoplamiento proteína-ligando

No hay teorema de almuerzo gratis

Algoritmo genético

Busqueda local

Filtración colaborativa

Factorización de matrices

Valor singular de descomposición

Bosque aleatorio

Administración de alimentos y medicamentos

archivo de datos moleculares

Banco de datos de proteínas

Banco de datos de proteínas, carga parcial (Q) y tipo de átomo (T)

Promedio

Análisis de componentes principales

Incrustación de vecinos estocásticos distribuidos en T

Estimación cuantitativa de la semejanza con las drogas

Igualación parcial de la electronegatividad orbital

Virus de inmunodeficiencia humana

Redes neuronales

Graficar redes neuronales

Everhardus, JA Diseño de fármacos: química medicinal (Elsevier, 2017).

Google Académico

Jeffrey, C., Carl, R. & Parvesh, K. El precio del progreso: financiación y financiación del desarrollo de fármacos para la enfermedad de alzheimer. Alzheimer Demencia Trans. Res. clin. Enterrar. 20, 875 (2018).

Google Académico

Reymond, J.-L. El proyecto del espacio químico. Cuenta química Res. 48(3), 722–730 (2015).

Artículo CAS PubMed Google Académico

Mullard, A. Aprobaciones de medicamentos de la FDA de 2020. Nat. Rev. Descubrimiento de Drogas. 20(2), 85–91 (2021).

Artículo CAS PubMed Google Académico

Edgar, L.-L., Jurgen, B. y José, LM-F. Informática para química, biología y ciencias biomédicas. J. Chem. información Modelo. 61(1), 26–35 (2020).

Google Académico

Wenbo, Y. & Alexander, DM Métodos de diseño de fármacos asistidos por computadora. En Antibióticos (ed. Jack, E.) 85–106 (Springer, 2017).

Google Académico

Stephani, JYM, Vijayakumar, G., Sunhye, H. & Sun, C. Papel del diseño de fármacos asistido por computadora en el descubrimiento moderno de fármacos. Arco. Farmacia Res. 38(9), 1686–1701 (2015).

Artículo Google Académico

Duch, W., Swaminathan, K. & Meller, J. Enfoques de inteligencia artificial para el diseño y descubrimiento racional de fármacos. actual Farmacia Des. 13(14), 1497–1508 (2007).

Artículo CAS PubMed Google Académico

Mohammad, HB et al. Diseño de fármacos asistido por computadora: éxito y limitaciones. actual Farmacia Des. 22(5), 572–581 (2016).

Artículo Google Académico

Fernando, DP-M., Edgar, L.-L., Juarez-Mercado, KE & Jose, LM-F. Métodos computacionales de diseño de fármacos: perspectivas actuales y futuras. In Silico Drug Des. 2, 19–44 (2019).

Google Académico

Rice, JR El problema de selección de algoritmos. Adv. computar 15, 65–118 (1976).

Artículo Google Académico

Pascal, K., Holger, HH, Frank, N. & Heike, T. Selección de algoritmos automatizados: Encuesta y perspectivas. Evol. computar 27(1), 3–45 (2019).

Artículo Google Académico

Wolpert, DH & Macready, WG No hay teoremas de almuerzo gratis para la optimización. Trans. IEEE. Evol. computar 1, 67–82 (1997).

Artículo Google Académico

David, SG, Garrett, MM y Arthur, JO Acoplamiento automatizado de ligandos flexibles: aplicaciones de autoacoplamiento. J. Mol. reconocer 9(1), 1–5 (1996).

3.0.CO;2-6" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291099-1352%28199601%299%3A1%3C1%3A%3AAID-JMR241%3E3.0.CO%3B2-6" aria-label="Article reference 14" data-doi="10.1002/(SICI)1099-1352(199601)9:13.0.CO;2-6">Artículo Google Académico

Garrett, MM et al. Acoplamiento automatizado utilizando un algoritmo genético lamarckiano y una función de energía libre de unión empírica. J. Cómputo. química 19(14), 1639–1662 (1998).

3.0.CO;2-B" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291096-987X%2819981115%2919%3A14%3C1639%3A%3AAID-JCC10%3E3.0.CO%3B2-B" aria-label="Article reference 15" data-doi="10.1002/(SICI)1096-987X(19981115)19:143.0.CO;2-B">Artículo Google Académico

Emile, A., Emile, HLA y Jan, KL Búsqueda local en optimización combinatoria (Princeton University Press, 2003).

Matemáticas Google Académico

Mısır, M. & Sebag, M. ALORS: Un sistema de recomendación de algoritmos. Artefacto Intel. 244, 291–314 (2017).

Artículo MathSciNet MATEMÁTICAS Google Académico

Meng, X.-Y., Zhang, H.-X., Mezei, M. & Cui, M. Acoplamiento molecular: un enfoque poderoso para el descubrimiento de fármacos basado en la estructura. actual computar Drogas asistidas Des. 7(2), 146–157 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Fischer, E. Influencia de la configuración sobre la acción de las enzimas. aprox. Alemán Chem. Ges. 27(3), 2985-2993 (1894).

Artículo CAS Google Académico

Koshland, DE Jr. Correlación de estructura y función en la acción de las enzimas: Las herramientas teóricas y experimentales están conduciendo a correlaciones entre la estructura y la función de las enzimas. Ciencia 142 (3599), 1533–1541 (1963).

Artículo ADS CAS PubMed Google Scholar

Cherayathumadom, MV, Xiaohui, J., Tom, O. y Marvin, W. Ligandfit: un método novedoso para el acoplamiento rápido dirigido por la forma de ligandos a sitios activos de proteínas. J. Mol. Gramo. Modelo. 21(4), 289–307 (2003).

Artículo Google Académico

Fredrik, O., Garrett, MM, Michel, FS, Arthur, JO y David, SG Acoplamiento automatizado a múltiples estructuras objetivo: incorporación de movilidad de proteínas y heterogeneidad estructural del agua en acoplamiento automático. Estructura de proteínas. Función Bioinf. 46(1), 34–40 (2002).

Artículo Google Académico

Gareth, J., Peter, W., Robert, CG, Andrew, RL & Robin, T. Desarrollo y validación de un algoritmo genético para acoplamiento flexible. J. Mol. Biol. 267(3), 727–748 (1997).

Artículo Google Académico

Richard, AF et al. Deslizamiento: un nuevo enfoque para el acoplamiento y la puntuación rápidos y precisos. 1. Método y evaluación de la precisión del atraque. J.Med. química 47(7), 1739–1749 (2004).

Artículo Google Académico

Isabella, AG, Felipe, SP & Laurent, ED Funciones de puntuación empíricas para el cribado virtual basado en estructuras. Frente. Farmacol. 9, 1089 (2018).

Artículo Google Académico

Huang, S.-Y., Grinter, SZ & Zou, X. Funciones de puntuación y sus métodos de evaluación para el acoplamiento de proteínas y ligandos: avances recientes y direcciones futuras. física química química física 12(40), 12899–12908 (2010).

Artículo CAS PubMed Google Académico

Garrett, MM et al. Autodock4 y autodocktools4: Acoplamiento automatizado con flexibilidad selectiva del receptor. J. Cómputo. química 30(16), 2785–2791 (2009).

Artículo Google Académico

Gromiha, MM Capítulo 7-Interacciones de proteínas. En Protein Bioinformatics (ed. Gromiha, MM) 247–302 (Academic Press, 2010).

Capítulo Google Académico

Elaine, CM, Brian, KS e Irwin, DK Acoplamiento automatizado con evaluación de energía basada en la red. J. Cómputo. química 13(4), 505–524 (1992).

Artículo Google Académico

Alexander, T., Lukas, G., Tanja, T., Marcel, W. & Eyke, H. Selección de algoritmos en un nivel meta. Mach. Aprender. 5, 417 (2022).

Google Académico

Lin, X., Frank, H., Holger, HH y Kevin, L.-B. Satzilla-07: El diseño y análisis de un portafolio de algoritmos para sat. En Conferencia Internacional sobre Principios y Prácticas de la Programación de Restricciones 712–727 (Springer, 2007).

Lars, K. Selección de algoritmos para problemas de búsqueda combinatoria: una encuesta. En Minería de datos y programación de restricciones 149–190 (Springer, 2016).

Mario, AM, Michael, K. y Saman, KH El problema de selección de algoritmos en el dominio de optimización continua. En Computational Intelligence in Intelligent Data Analysis 75–89 (Springer, 2013).

Gomes, CP y Selman, B. Carteras algorítmicas. Artefacto Intel. 126(1), 43–62 (2001).

Artículo MathSciNet MATEMÁTICAS Google Académico

Xu, L., Hoos, HH y Leyton-Brown, K. Hydra: Configuración automática de algoritmos para la selección basada en cartera. En Actas de la 24.ª Conferencia AAAI sobre Inteligencia Artificial (AAAI) 210–216 (2010).

Aldy, G., Hoong, CL y Mustafa, M. Diseño y comparación de múltiples carteras de configuraciones de parámetros para la selección de algoritmos en línea. En Actas de la 10.ª Conferencia sobre aprendizaje y optimización inteligente (LION), vol. 10079 de LNCS 91–106 (Nápoles, Italia, 2016).

Andrea, L., Yuri, M., Horst, S. y Vijay, AS Aprendizaje profundo para carteras de algoritmos. En Actas de la 13.ª Conferencia sobre Inteligencia Artificial (AAAI) 1280–1286 (2016).

Bernhard, P., Hilan, B. y Christophe, G.-C. Dime quién puede aprenderte y puedo decirte quién eres: Marcando varios algoritmos de aprendizaje. En Actas de la 7.ª Conferencia internacional sobre aprendizaje automático (ICML) 743–750 (2000).

Xiaoyuan, S. & Taghi, MK Un estudio de las técnicas de filtrado colaborativo. Adv. Artefacto Intel. 2009, 4 (2009).

Google Académico

Mustafa, M. Selección de algoritmos sobre selección de operadores adaptativos: un estudio de caso sobre algoritmos genéticos. En la 15ª Conferencia de Aprendizaje y Optimización Inteligente (LION), LNCS 12931 (2021).

Mustafa, M., Aldy, G. y Pieter, V. Selección de algoritmos para el problema de orientación en equipo. En Conferencia europea sobre computación evolutiva en optimización combinatoria (EvoCOP) (parte de EvoStar), vol. 13222 de LNCS 33–45 (Springer, 2022).

Mustafa, M. Selección de algoritmos entre configuradores de algoritmos: un estudio de caso sobre optimización multiobjetivo. En la serie de simposios de IEEE sobre inteligencia computacional (SSCI). IEEE (2022).

Mustafa, M. Selección de algoritmos de dominio cruzado: selección de algoritmos a través de hiperheurísticas de selección. En la serie de simposios de IEEE sobre inteligencia computacional (SSCI). IEEE (2022).

Mustafa, M. Selección de función de energía automatizada generalizada para la predicción de la estructura de proteínas en modelos de hp 2d y 3d. En la serie de simposios de IEEE sobre inteligencia computacional (SSCI) (2021).

Mustafa, M. Generación heurística por instancia basada en la selección para la predicción de la estructura de proteínas del modelo 2d hp. En la serie de simposios de IEEE sobre inteligencia computacional (SSCI). IEEE (2021).

Gene, HG & Christian, R. Descomposición de valores singulares y soluciones de mínimos cuadrados. Numerische Mathematik 14(5), 403–420 (1970).

Artículo MathSciNet Google Académico

Breiman, L. Bosques aleatorios. Mach. Aprender. 45(1), 5–32 (2001).

Artículo MATEMÁTICAS Google Académico

Sterling, T. & Irwin, JJ Descubrimiento de 15 ligandos de zinc para todos. J. Chem. información Modelo. 55(11), 2324–2337 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Ramanathan, N., Sylva, LUS, Edward, DS y Acharya, KR Estructura cristalina del complejo de enzima convertidora de angiotensina humana-lisinopril. Naturaleza 421 (6922), 551–554 (2003).

Artículo Google Académico

Noel, MO et al. Babel abierta: una caja de herramientas química abierta. J. Cheminf. 3(1), 1–14 (2011).

Google Académico

Greg, L. et al. Rdkit: un paquete de software para quimioinformática, química computacional y modelado predictivo. Greg Landrum 2, 47 (2013).

Google Académico

Chun Wei Yap. Padel-descriptor: un software de código abierto para calcular descriptores moleculares y huellas dactilares. J. Cómputo. química 32(7), 1466–1474 (2011).

Artículo PubMed Google Académico

Sunghwan, K. et al. Pubchem en 2021: nuevo contenido de datos e interfaces web mejoradas. Ácidos Nucleicos Res. 49(D1), D1388–D1395 (2021).

Artículo Google Académico

Anil, KJ, Narasimha, MM y Patrick, JF Agrupación de datos: una revisión. Cómputo ACM. sobrev. 31(3), 264–323 (1999).

Artículo Google Académico

Peter, JR Silhouettes: una ayuda gráfica para la interpretación y validación del análisis de conglomerados. J. Cómputo. aplicación Matemáticas. 20, 53–65 (1987).

Artículo MATEMÁTICAS Google Académico

Khanna, V. & Ranganathan, S. Distribución espacial de propiedades fisicoquímicas entre metabolitos humanos, drogas y toxinas. BMC Bioinf. 10(15), S10 (2009).

Artículo Google Académico

Tudor, IO, Andrew, MD, Simon, JT y Paul, DL ¿Existe alguna diferencia entre los cables y las drogas? Una perspectiva histórica. J. Chem. Informar. computar ciencia 41(5), 1308–1315 (2001).

Artículo Google Académico

Daniel, FV et al. Propiedades moleculares que influyen en la biodisponibilidad oral de candidatos a fármacos. J.Med. química 45(12), 2615–2623 (2002).

Artículo Google Académico

Alexandru, TB Índice topológico basado en la distancia altamente discriminante. química física Letón. 89(5), 399–404 (1982).

Artículo MathSciNet Google Académico

Roy, K. Descriptores topológicos en estudios de diseño y modelado de fármacos. mol. Diversidad 8(4), 321–323 (2004).

Artículo ADS CAS Google Académico

Zlatko, M. & Nenad, T. Un enfoque teórico de grafos para las relaciones estructura-propiedad (Springer, 1992).

Google Académico

Lowell, HH & Lemont, BK Los índices chi de conectividad molecular y los índices de forma kappa en el modelado de estructura-propiedad. Cómputo Rev. química 5, 367–422 (1991).

Google Académico

Lemont, BK Un índice de forma a partir de gráficos moleculares. cuant. Relación Estructura.-Actividad. 4(3), 109–116 (1985).

Artículo Google Académico

Bickerton, GR, Paolini, GV, Besnard, J., Muresan, S. & Hopkins, AL Cuantificación de la belleza química de las drogas. Nat. química 4(2), 90–98 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Artem, C. et al. Modelado Qsar: ¿Dónde has estado? ¿Hacia donde te diriges?. J.Med. química 57(12), 4977–5010 (2014).

Artículo Google Académico

Rafael, G.-B. et al. Diseño químico automático utilizando una representación continua de moléculas basada en datos. Ciencia central de ACS. 4(2), 268–276 (2018).

Artículo Google Académico

Lowell, HH, Brian, M. y Lemont, BK El estado electrotopológico: un índice atómico para qsar. cuant. Estructura. Relación de actividad. 10(1), 43–51 (1991).

Artículo Google Académico

Lemont, BK & Lowell, HH Un índice de estado electrotopológico para átomos en moléculas. Farmacia Res. 7(8), 801–807 (1990).

Artículo Google Académico

de Carolina, G., Lemont, BK & Lowell, HH Modelado de Qsar con los índices de estado electrotopológicos: corticosteroides. J. Cómputo. Mol asistido. Des. 12(6), 557–561 (1998).

Artículo Google Académico

Steven, HB El primer índice general de complejidad molecular. Mermelada. química Soc. 103(12), 3599–3601 (1981).

Artículo Google Académico

Steven, HB Convergencia, complejidad molecular y análisis sintético. Mermelada. química Soc. 104(21), 5801–5803 (1982).

Artículo Google Académico

Gasteiger, J. & Marsili, M. Igualación parcial iterativa de la electronegatividad orbital: un acceso rápido a las cargas atómicas. Tetraedro 36 (22), 3219–3228 (1980).

Artículo CAS Google Académico

Sven, H., Svante, W., William, JD, Johann, G. y Michael, GH La actividad anestésica y la toxicidad de los éteres metílicos de etilo halogenados, un QSAR multivariante modelado por PLS. cuant. Estructura. Relación de actividad. 4(1), 1–11 (1985).

Artículo Google Académico

Hongbin, Y. & Abby, LP Estudios QSAR de inhibición de la integrasa del VIH-1. Bioorgánica Med. química 10(12), 4169–4183 (2002).

Artículo Google Académico

Zhou, J. et al. Redes neuronales gráficas: una revisión de métodos y aplicaciones. Abierto AI 1, 57–81 (2020).

Artículo Google Académico

Dejun, J. et al. ¿Podrían las redes neuronales gráficas aprender una mejor representación molecular para el descubrimiento de fármacos? un estudio comparativo de modelos basados ​​en descriptores y gráficos. J. Cheminform. 13(1), 1–23 (2021).

Google Académico

Descargar referencias

Este trabajo cuenta con el apoyo de la Beca Semilla de Investigación Interdisciplinaria de la Universidad de Duke Kunshan.

Departamento de Ciencias Naturales y Aplicadas, Universidad Duke Kunshan, Kunshan, China

Tianlai Chen, Xiwen Shu, Huiyuan Zhou, Floyd A. Beckford y Mustafa Misir

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

MM y FB concebido y diseñado el estudio. TC y HZ llevaron a cabo la generación de datos. MM, XS, TC y HZ implementaron el modelo y la visualización. Todos los autores discutieron los resultados y contribuyeron igualmente al manuscrito final.

Correspondencia a Floyd A. Beckford o Mustafa Misir.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Chen, T., Shu, X., Zhou, H. et al. Selección de algoritmos para acoplamiento proteína-ligando: estrategias y análisis en ACE. Informe científico 13, 8219 (2023). https://doi.org/10.1038/s41598-023-35132-5

Descargar cita

Recibido: 07 enero 2023

Aceptado: 12 de mayo de 2023

Publicado: 22 mayo 2023

DOI: https://doi.org/10.1038/s41598-023-35132-5

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.