banner
Hogar / Noticias / Control magnético de plasmas tokamak a través del aprendizaje de refuerzo profundo
Noticias

Control magnético de plasmas tokamak a través del aprendizaje de refuerzo profundo

Dec 21, 2023Dec 21, 2023

Nature volumen 602, páginas 414–419 (2022)Citar este artículo

182k Accesos

131 citas

2389 Altmetric

Detalles de métricas

La fusión nuclear por confinamiento magnético, en particular en la configuración tokamak, es un camino prometedor hacia la energía sostenible. Un desafío central es dar forma y mantener un plasma a alta temperatura dentro del recipiente tokamak. Esto requiere un control de circuito cerrado de alta frecuencia y alta dimensión que utiliza bobinas de actuadores magnéticos, lo que se complica aún más por los diversos requisitos en una amplia gama de configuraciones de plasma. En este trabajo, presentamos una arquitectura no descrita anteriormente para el diseño del controlador magnético tokamak que aprende de forma autónoma a comandar el conjunto completo de bobinas de control. Esta arquitectura cumple con los objetivos de control especificados a un alto nivel, al mismo tiempo que satisface las restricciones físicas y operativas. Este enfoque tiene una flexibilidad y generalidad sin precedentes en la especificación de problemas y produce una reducción notable en el esfuerzo de diseño para producir nuevas configuraciones de plasma. Producimos y controlamos con éxito un conjunto diverso de configuraciones de plasma en el Tokamak à Configuration Variable1,2, incluidas formas alargadas y convencionales, así como configuraciones avanzadas, como triangularidad negativa y configuraciones de "copo de nieve". Nuestro enfoque logra un seguimiento preciso de la ubicación, la corriente y la forma de estas configuraciones. También demostramos 'gotitas' sostenidas en TCV, en las que dos plasmas separados se mantienen simultáneamente dentro del vaso. Esto representa un avance notable para el control de retroalimentación de tokamak, que muestra el potencial del aprendizaje por refuerzo para acelerar la investigación en el dominio de la fusión, y es uno de los sistemas del mundo real más desafiantes a los que se ha aplicado el aprendizaje por refuerzo.

Los tokamaks son dispositivos en forma de toro para la investigación de la fusión nuclear y son un candidato destacado para la generación de energía eléctrica sostenible. Una dirección principal de la investigación es estudiar los efectos de dar forma a la distribución del plasma en diferentes configuraciones3,4,5 para optimizar la estabilidad, el confinamiento y el escape de energía y, en particular, informar el primer experimento de combustión de plasma, ITER. Confinar cada configuración dentro del tokamak requiere diseñar un controlador de retroalimentación que pueda manipular el campo magnético6 a través del control preciso de varias bobinas que están acopladas magnéticamente al plasma para lograr la corriente, la posición y la forma de plasma deseadas, un problema conocido como el problema de control magnético del tokamak. .

El enfoque convencional para este problema de control multivariante, no lineal y variable en el tiempo es resolver primero un problema inverso para precalcular un conjunto de corrientes y voltajes de bobina de avance7,8. Luego, se diseña un conjunto de controladores PID independientes de entrada única y salida única para estabilizar la posición vertical del plasma y controlar la posición radial y la corriente del plasma, todo lo cual debe estar diseñado para no interferirse mutuamente6. La mayoría de las arquitecturas de control se complementan aún más con un bucle de control externo para la forma del plasma, lo que implica implementar una estimación en tiempo real del equilibrio del plasma9,10 para modular las corrientes de la bobina de alimentación directa8. Los controladores están diseñados sobre la base de la dinámica del modelo linealizado, y se requiere programación de ganancia para realizar un seguimiento de los objetivos de control variables en el tiempo. Aunque estos controladores suelen ser efectivos, requieren un esfuerzo de ingeniería considerable, un esfuerzo de diseño y experiencia cada vez que se cambia la configuración del plasma objetivo, junto con cálculos complejos en tiempo real para la estimación del equilibrio.

Un enfoque radicalmente nuevo para el diseño de controladores es posible mediante el uso de aprendizaje por refuerzo (RL) para generar controladores de retroalimentación no lineales. El enfoque RL, que ya se ha utilizado con éxito en varias aplicaciones desafiantes en otros dominios11,12,13, permite el establecimiento intuitivo de objetivos de desempeño, cambiando el enfoque hacia lo que se debe lograr, en lugar de cómo. Además, RL simplifica enormemente el sistema de control. Un único controlador computacionalmente económico reemplaza la arquitectura de control anidado y una reconstrucción de estado internalizada elimina el requisito de una reconstrucción de equilibrio independiente. Estos beneficios combinados reducen el ciclo de desarrollo del controlador y aceleran el estudio de configuraciones de plasma alternativas. De hecho, la inteligencia artificial se ha identificado recientemente como una "oportunidad de investigación prioritaria" para el control de la fusión14, basándose en los éxitos demostrados en la reconstrucción de los parámetros de la forma del plasma15,16, acelerando las simulaciones utilizando modelos sustitutos17,18 y detectando interrupciones inminentes del plasma19. Sin embargo, RL no se ha utilizado para el diseño de controladores magnéticos, lo cual es un desafío debido a las mediciones y la actuación de alta dimensión, los horizontes de tiempo prolongados, las tasas de crecimiento de inestabilidad rápida y la necesidad de inferir la forma del plasma a través de mediciones indirectas.

En este trabajo, presentamos un controlador magnético diseñado por RL y verificamos experimentalmente su desempeño en un tokamak. Las políticas de control se aprenden a través de la interacción con un simulador de tokamak y se demuestra que son directamente capaces de control magnético de tokamak en el hardware, cerrando con éxito la brecha 'sim-to-real'. Esto permite un cambio fundamental del control impulsado por la ingeniería de un estado prediseñado a la optimización impulsada por la inteligencia artificial de los objetivos especificados por un operador. Demostramos la efectividad de nuestros controladores en experimentos realizados en el Tokamak à Configuration Variable (TCV)1,2, en los que demostramos el control de una variedad de formas de plasma, incluidas las alargadas, como las previstas en ITER, así como configuraciones avanzadas, como triangularidad negativa y plasmas de "copo de nieve". Además, demostramos una configuración sostenida en la que dos "gotas" de plasma separadas se mantienen simultáneamente dentro del vaso. El control magnético Tokamak es uno de los sistemas del mundo real más complejos a los que se ha aplicado RL. Esta es una nueva dirección prometedora para el diseño de controladores de plasma, con el potencial de acelerar la ciencia de la fusión, explorar nuevas configuraciones y ayudar en el desarrollo futuro de tokamak.

Nuestra arquitectura, representada en la Fig. 1, es un enfoque flexible para diseñar controladores de confinamiento magnético tokamak. El enfoque tiene tres fases principales. Primero, un diseñador especifica objetivos para el experimento, potencialmente acompañados de objetivos de control variables en el tiempo. En segundo lugar, un algoritmo de RL profundo interactúa con un simulador de tokamak para encontrar una política de control casi óptima para cumplir con los objetivos especificados. En tercer lugar, la política de control, representada como una red neuronal, se ejecuta directamente ("disparo cero") en el hardware tokamak en tiempo real.

a, Representación del circuito de aprendizaje. El controlador envía comandos de voltaje sobre la base del estado actual del plasma y los objetivos de control. Estos datos se envían al búfer de reproducción, que envía datos al alumno para actualizar la política. b, Nuestro bucle de interacción con el entorno, que consiste en un modelo de fuente de alimentación, un modelo de detección, una variación de parámetros físicos del entorno y un cálculo de recompensa. c, Nuestra política de control es un MLP con tres capas ocultas que toma medidas y controla objetivos y emite comandos de voltaje. d–f, la interacción de TCV y el sistema de control implementado en tiempo real implementado usando un controlador convencional compuesto por muchos subcomponentes (f) o nuestra arquitectura usando una sola red neuronal profunda para controlar las 19 bobinas directamente (e). g, Una representación de TCV y las 19 bobinas accionadas. La embarcación tiene una altura de 1,5 m, un radio menor de 0,88 m y una anchura media de la embarcación de 0,26 m. h, Una sección transversal del vaso y el plasma, con los aspectos importantes etiquetados.

En la primera fase, la meta experimental se especifica mediante un conjunto de objetivos que pueden contener una amplia variedad de propiedades deseadas (Tabla 4 de datos ampliados). Estas propiedades van desde la estabilización básica de la posición y la corriente de plasma hasta combinaciones sofisticadas de varios objetivos variables en el tiempo, incluido un contorno de forma precisa con alargamiento, triangularidad y ubicación del punto X especificados. Estos objetivos luego se combinan en una 'función de recompensa' que asigna una medida de calidad escalar al estado en cada paso de tiempo. Esta función también penaliza la política de control por alcanzar estados terminales no deseados, como se analiza a continuación. De manera crucial, una función de recompensa bien diseñada se especificará mínimamente, lo que le dará al algoritmo de aprendizaje la máxima flexibilidad para lograr el resultado deseado.

En la segunda fase, un algoritmo RL de alto rendimiento recopila datos y encuentra una política de control a través de la interacción con un entorno, como se muestra en la Fig. 1a, b. Usamos un simulador que tiene suficiente fidelidad física para describir la evolución de la forma y la corriente del plasma, sin dejar de ser lo suficientemente barato desde el punto de vista computacional para el aprendizaje. Específicamente, modelamos la dinámica que gobierna la evolución del estado del plasma bajo la influencia de los voltajes de la bobina del campo poloidal utilizando un modelo de evolución del plasma de límite libre20. En este modelo, las corrientes en las bobinas y los conductores pasivos evolucionan bajo la influencia de los voltajes aplicados externamente desde las fuentes de alimentación, así como los voltajes inducidos de las corrientes que varían con el tiempo en otros conductores y en el propio plasma. El plasma, a su vez, está modelado por la ecuación de Grad-Shafranov21, que resulta del equilibrio entre la fuerza de Lorentz y el gradiente de presión dentro del plasma en las escalas de tiempo de interés. La evolución de la corriente de plasma total Ip se modela utilizando una ecuación de circuito concentrado. Este conjunto de ecuaciones se resuelve numéricamente mediante el paquete de software FGE22.

El algoritmo RL utiliza los datos recopilados del simulador para encontrar una política casi óptima con respecto a la función de recompensa especificada. La tasa de datos de nuestro simulador es notablemente más lenta que la de un entorno RL típico debido a los requisitos computacionales de la evolución del estado del plasma. Superamos la escasez de datos mediante la optimización de la política utilizando la máxima optimización de políticas a posteriori (MPO)23, un algoritmo actor-crítico. MPO admite la recopilación de datos a través de flujos paralelos distribuidos y aprende de una manera eficiente en datos. Además, explotamos la asimetría inherente al diseño actor-crítico de MPO para superar las limitaciones del control magnético. En los algoritmos actor-crítico, el 'crítico' aprende la recompensa futura esperada con descuento por varias acciones usando los datos disponibles y el 'actor' usa las predicciones del crítico para establecer la política de control. La representación de la política de control del actor está restringida, ya que debe ejecutarse en TCV con garantías de tiempo real, mientras que la crítica no está restringida, ya que solo se utiliza durante el entrenamiento. Por lo tanto, utilizamos una red neuronal de avance rápido de cuatro capas en el actor (Fig. 1c) y una red neuronal recurrente mucho más grande en el crítico. Esta asimetría permite al crítico inferir el estado subyacente a partir de las mediciones, lidiar con dinámicas complejas de transición de estado en diferentes escalas de tiempo y evaluar la influencia de la medición del sistema y los retrasos en la acción. La información de la dinámica acoplada luego se destila en un controlador con capacidad en tiempo real.

En la tercera fase, la política de control se empaqueta con los objetivos de control del experimento asociados en un ejecutable utilizando un compilador diseñado para el control en tiempo real a 10 kHz que minimiza las dependencias y elimina los cálculos innecesarios. Este ejecutable es cargado por el marco de control de TCV24 (Fig. 1d). Cada experimento comienza con procedimientos estándar de formación de plasma, en los que un controlador tradicional mantiene la ubicación del plasma y la corriente total. En un momento preespecificado, denominado 'traspaso', el control cambia a nuestra política de control, que luego activa las 19 bobinas de control TCV para transformar la forma y la corriente del plasma en los objetivos deseados. Los experimentos se ejecutan sin más ajustes de los pesos de la red de política de control después del entrenamiento, en otras palabras, hay una transferencia de "disparo cero" de la simulación al hardware.

Las políticas de control se transfieren de manera confiable a TCV a través de varios atributos clave del procedimiento de aprendizaje, representado en la Fig. 1b. Identificamos un modelo de actuador y sensor que incorpora propiedades que afectan la estabilidad del control, como retrasos, ruido de medición y compensaciones de voltaje de control. Aplicamos la variación de parámetros objetivo durante el entrenamiento en un rango apropiado para la presión del plasma, el perfil de densidad de corriente y la resistividad del plasma a través del análisis de los datos del experimento, para tener en cuenta las condiciones experimentales variables y no controladas. Esto proporciona robustez al mismo tiempo que garantiza el rendimiento. Aunque el simulador es generalmente preciso, hay regiones conocidas en las que se sabe que la dinámica está mal representada. Construimos 'evitación de región aprendida' en el ciclo de entrenamiento para evitar estos regímenes mediante el uso de recompensas y condiciones de terminación (Tabla 5 de datos extendidos), que detienen la simulación cuando se encuentran condiciones específicas. Las condiciones de terminación también se utilizan para hacer cumplir los límites operativos. Las políticas de control aprenden a mantenerse dentro de los límites especificados, por ejemplo, en la corriente máxima de bobina o el factor de seguridad de borde25.

Los controladores diseñados por nuestra arquitectura están muy simplificados estructuralmente en comparación con los diseños convencionales, como se muestra en la Fig. 1e, f. En lugar de una serie de controladores, el diseño basado en RL crea un solo controlador de red.

Demostramos la capacidad de nuestra arquitectura en objetivos de control en experimentos del mundo real en TCV. Primero mostramos un control preciso de las cualidades fundamentales de los equilibrios de plasma. Luego controlamos una amplia gama de equilibrios con objetivos complejos que varían en el tiempo y configuraciones de plasma físicamente relevantes. Finalmente, demostramos el control de una configuración con varias 'gotas' de plasma en el recipiente simultáneamente.

Primero probamos las tareas fundamentales del control de plasma a través de una serie de cambios representativos de los necesarios para una descarga completa de plasma. Primero, desde el traspaso en 0.0872 s, tome el control y estabilice Ip en −110 kA. A continuación, aumente la corriente de plasma a -150 kA y luego alargue el plasma de 1,24 a 1,44, aumentando así la tasa de crecimiento de la inestabilidad vertical a 150 Hz. A continuación, demuestre el control de posición cambiando la posición vertical del plasma en 10 cm y luego desvíe el plasma con el control de la ubicación activa del punto X (ver Fig. 1h). Finalmente, regrese el plasma a la condición de traspaso y disminuya Ip a −70 kA para apagarlo de manera segura. Aunque los requisitos de precisión generalmente dependerán del experimento exacto, un objetivo razonable es controlar Ip dentro de 5 kA (3% del objetivo final de 150 kA) y la forma dentro de 2 cm (8% de la mitad radial del ancho del vaso). 26cm). Tenga en cuenta que la reconstrucción de equilibrio utilizada coincide con un límite reconstruido visualmente con una precisión típica26 de 1 cm.

El desempeño de la política de control se muestra en la Fig. 2. Todas las tareas se realizan con éxito, con una precisión de seguimiento por debajo de los umbrales deseados. En la fase limitada inicial (0,1 s a 0,45 s), el error cuadrático medio (RMSE) de Ip es de 0,71 kA (0,59 % del objetivo) y la forma RMSE es de 0,78 cm (3 % de la mitad del ancho del recipiente) . En la fase desviada (0,55 s a 0,8 s), el Ip y el RMSE de forma son 0,28 kA y 0,53 cm, respectivamente (0,2 % y 2,1 %), lo que produce un RMSE en toda la ventana (0,1 s a 1,0 s) de 0,62 kA y 0,75 cm (0,47% y 2,9%). Esto demuestra que nuestra arquitectura RL es capaz de controlar con precisión el plasma en todas las fases relevantes de un experimento de descarga.

Demostración de corriente de plasma, estabilidad vertical, control de posición y forma. Arriba, puntos de forma de destino con un radio de 2 cm (círculos azules), en comparación con la reconstrucción de equilibrio posterior al experimento (línea negra continua en el gráfico de contorno). Abajo a la izquierda, trazas de tiempo objetivo (trazas azules) comparadas con la observación reconstruida (trazas naranjas), con la ventana de plasma desviado marcada (rectángulo verde). Abajo a la derecha, imagen del interior del recipiente a los 0,6 s que muestra el plasma desviado con sus patas.

Datos fuente

A continuación demostramos la capacidad de nuestra arquitectura para producir configuraciones complejas para el estudio científico. Cada demostración tiene sus propios objetivos que varían con el tiempo pero, por lo demás, utiliza la misma configuración arquitectónica para generar una política de control, incluida la configuración del entorno y la capacitación, con solo ajustes menores en la función de recompensa (que se muestra en la Tabla 3 de datos ampliados). Recuerde que, en cada experimento, el plasma tiene un alargamiento bajo antes del traspaso y la política de control modula activamente el plasma a la configuración de interés. Los intervalos de tiempo seleccionados de estos experimentos se muestran en la figura 3, con más detalles en la figura 1 de datos ampliados y las métricas de error en la tabla 1 de datos ampliados.

Demostraciones de control obtenidas durante los experimentos TCV. Puntos de forma objetivo con un radio de 2 cm (círculos azules), en comparación con el límite de plasma de reconstrucción de equilibrio (línea negra continua). En todas las figuras, el primer intervalo de tiempo muestra la condición de traspaso. a, Elongación de 1,9 con tasa de crecimiento de inestabilidad vertical de 1,4 kHz. b, forma aproximada propuesta por ITER con calefacción de haz neutro (NBH) entrando en modo H. c, Triangularidad negativa desviada de −0,8. d, Configuración de copo de nieve con un control variable en el tiempo del punto X inferior, donde los puntos X objetivo están marcados en azul. Los rastros extendidos para estos disparos se pueden encontrar en Datos extendidos Fig. 2.

Datos fuente

El alargamiento de los plasmas mejora sus propiedades de confinamiento térmico, pero su mayor tasa de crecimiento de inestabilidad vertical complica el control. Apuntamos a una elongación alta de 1.9 con una tasa de crecimiento considerable. El controlador pudo producir y estabilizar este alargamiento, como se muestra en la Fig. 3a. Obtuvimos una buena coincidencia entre el alargamiento buscado y el deseado, con un RMSE de 0.018. También controlamos la forma y la corriente de plasma a sus valores objetivo, con un Ip RMSE de 1,2 kA y una forma RMSE de 1,6 cm. Esto demuestra la capacidad de estabilizar una alta tasa de crecimiento de inestabilidad vertical de más de 1,4 kHz, a pesar de actuar a solo 10 kHz.

A continuación, probamos la aplicación de calefacción auxiliar a través de la inyección de haz neutro para ingresar al "modo H", que es deseable para tener un mayor tiempo de confinamiento de energía, pero provoca cambios notables en las propiedades del plasma. Se nos proporcionó una trayectoria variable en el tiempo sobre la base de la configuración ITER propuesta que utiliza dicho calentamiento auxiliar. A medida que la presión normalizada βp aumenta a 1,12, como se ve en la Fig. 3b, la posición y la corriente del plasma se mantuvieron con precisión, con un Ip RMSE de 2,6 kA y una forma RMSE de 1,4 cm. Esto demuestra que nuestro controlador puede adaptarse sólidamente a un estado de plasma cambiante y puede funcionar con plasma en modo H calentado en configuraciones especificadas externamente.

Los plasmas de triangularidad negativa son atractivos ya que tienen propiedades de confinamiento favorables sin el fuerte gradiente de presión de borde típico de los modos H. Apuntamos a una configuración desviada con una triangularidad de −0.8 y con puntos X en ambas esquinas. Logramos con éxito esta configuración, que se muestra en la Fig. 3c. La triangularidad coincidió con precisión, con un RMSE de 0,070, al igual que la corriente y la forma del plasma, con valores de RMSE de 3,5 kA y 1,3 cm, respectivamente. Esto demuestra la capacidad de crear rápida y directamente una configuración bajo estudio activo27.

Se investigan las configuraciones de los copos de nieve28,29, ya que distribuyen el escape de partículas en varios puntos de impacto. Un parámetro crucial es la distancia entre los dos puntos X que forman las patas del desviador. Demostramos nuestra capacidad para controlar esta distancia, que se muestra en la Fig. 3d. La política de control estableció primero una configuración de copo de nieve con puntos X separados por 34 cm. Luego manipuló el punto X lejano para acercarse al punto X límite, finalizando con una separación de 6,6 cm. Los objetivos de punto X variables en el tiempo se rastrearon con un RMSE combinado de 3,7 cm. La forma y la corriente de plasma se mantuvieron con alta precisión durante esta transición, con valores RMSE de 0,50 kA y 0,65 cm, respectivamente. Esto demuestra un control preciso de un objetivo complejo variable en el tiempo con varios objetivos acoplados.

En conjunto, estos experimentos demuestran la facilidad con la que se pueden explorar nuevas configuraciones, prueban la capacidad de nuestra arquitectura para operar en descargas de alto rendimiento y confirman la amplitud de su capacidad. En la sección Métodos, investigamos más a fondo los comportamientos de la política de control.

Por último, demostramos el poder de nuestra arquitectura para explorar nuevas configuraciones de plasma. Probamos el control de 'gotas', una configuración en la que existen dos plasmas separados dentro del recipiente simultáneamente. Probablemente sea posible que los enfoques existentes puedan estabilizar tales gotas. No obstante, se requeriría una gran inversión para desarrollar la programación de corriente de la bobina de avance, implementar estimadores en tiempo real, ajustar las ganancias del controlador y tomar el control con éxito después de la creación del plasma. Por el contrario, con nuestro enfoque, simplemente ajustamos el estado de transferencia simulado para tener en cuenta las diferentes condiciones de transferencia de los plasmas de un solo eje y definimos una función de recompensa para mantener estable la posición de cada componente de gota mientras aumenta las corrientes de plasma de dominio. Esta especificación flexible le da a la arquitectura la libertad de elegir cómo adaptar mejor las formas de las gotas a medida que aumenta Ip para mantener la estabilidad. La arquitectura pudo estabilizar con éxito las gotas en toda la ventana de control de 200 ms y aumentar la corriente dentro de cada dominio, como se muestra en la Fig. 4. Esto destaca la ventaja de una arquitectura de control general basada en el aprendizaje para adaptar el control a configuraciones previamente desconocidas. .

Demostración de control sostenido de dos gotitas independientes en TCV para toda la ventana de control de 200 ms. A la izquierda, control de Ip para cada lóbulo independiente hasta el mismo valor objetivo. A la derecha, una imagen en la que se ven las dos gotitas, tomada con una cámara que mira hacia el recipiente en t = 0,55.

Datos fuente

Presentamos un nuevo paradigma para el confinamiento magnético de plasma en tokamaks. Nuestro diseño de control cumple muchas de las esperanzas de la comunidad de un enfoque de control basado en el aprendizaje automático14, incluido el alto rendimiento, la robustez ante condiciones de funcionamiento inciertas, la especificación intuitiva de objetivos y una versatilidad sin precedentes. Este logro requirió superar las brechas en capacidad e infraestructura a través de avances científicos y de ingeniería: un simulador preciso y numéricamente robusto; una compensación informada entre la precisión de la simulación y la complejidad computacional; un modelo de sensor y actuador ajustado a un control de hardware específico; variación realista de las condiciones de operación durante el entrenamiento; un algoritmo RL de datos altamente eficiente que escala a problemas de alta dimensión; una configuración de aprendizaje asimétrica con una crítica expresiva pero una política de evaluación rápida; un proceso para compilar redes neuronales en código con capacidad en tiempo real y su implementación en un sistema de control digital tokamak. Esto resultó en experimentos de hardware exitosos que demuestran una capacidad fundamental junto con un control de forma avanzado sin necesidad de ajustes en la planta. Además, muestra que un modelo de evolución de equilibrio de límite libre tiene suficiente fidelidad para desarrollar controladores transferibles, lo que ofrece una justificación para usar este enfoque para probar el control de dispositivos futuros.

Los esfuerzos podrían desarrollar aún más nuestra arquitectura para cuantificar su solidez a través del análisis de la dinámica no lineal30,31,32 y reducir el tiempo de capacitación a través de una mayor reutilización de datos y aprendizaje de fidelidad múltiple33. Además, el conjunto de objetivos de control se puede ampliar, por ejemplo, para reducir las cargas de calor objetivo a través de la expansión del flujo5, con la ayuda del uso de información privilegiada en el crítico para evitar la necesidad de observadores en tiempo real. La arquitectura se puede acoplar a un simulador más capaz, por ejemplo, que incorpore presión de plasma y física de evolución de densidad de corriente, para optimizar el rendimiento global del plasma.

Nuestro marco de aprendizaje tiene el potencial de dar forma a futuras investigaciones de fusión y desarrollo de tokamak. Los objetivos no especificados pueden encontrar configuraciones que maximicen un objetivo de rendimiento deseado o incluso maximicen la producción de energía. Nuestra arquitectura se puede implementar rápidamente en un nuevo tokamak sin la necesidad de diseñar y poner en marcha el complejo sistema de controladores implementado hoy, y evaluar los diseños propuestos antes de que se construyan. En términos más generales, nuestro enfoque puede permitir el descubrimiento de nuevos diseños de reactores mediante la optimización conjunta de la forma del plasma, la detección, la actuación, el diseño de la pared, la carga de calor y el controlador magnético para maximizar el rendimiento general.

El TCV 1,34, que se muestra en la Fig. 1, es un tokamak de investigación en el Swiss Plasma Center, con un radio principal de 0,88 m y una altura y ancho de recipiente de 1,50 m y 0,512 m, respectivamente. TCV tiene un conjunto flexible de bobinas magnéticas que permiten la creación de una amplia gama de configuraciones de plasma. Los sistemas de calentamiento por resonancia de ciclotrón de electrones y de inyección de haz neutro35 proporcionan calentamiento externo y conducción de corriente, como se usa en el experimento de la Fig. 3b. TCV está equipado con varios sensores en tiempo real y nuestras políticas de control utilizan un subconjunto de estos sensores. En particular, usamos 34 de los bucles de alambre que miden el flujo magnético, 38 sondas que miden el campo magnético local y 19 mediciones de la corriente en las bobinas de control activas (aumentadas con una medida explícita de la diferencia de corriente entre las bobinas óhmicas). Además de los sensores magnéticos, TCV está equipado con otros sensores que no están disponibles en tiempo real, como las cámaras que se muestran en las Figs. 2 y 4. Nuestra política de control consume los sensores magnéticos y de corriente de TCV a una tasa de control de 10 kHz. La política de control produce un comando de voltaje de referencia en cada paso de tiempo para las bobinas de control activas.

La dinámica acoplada del plasma y los conductores activos y pasivos externos se modelan con un simulador de límite libre, FGE22. Los conductores se describen mediante un modelo de circuito en el que la resistividad se considera conocida y constante, y la inductancia mutua se calcula analíticamente.

Se supone que el plasma se encuentra en un estado de equilibrio de fuerza de equilibrio toroidalmente simétrico (ecuación de Grad-Shafranov21), en el que la fuerza de Lorentz J × B generada a partir de la interacción de la densidad de corriente del plasma, J, y el campo magnético, B, se equilibra el gradiente de presión del plasma ∇p. No se modela el transporte de la presión radial y la densidad de corriente causada por el calor y las fuentes de impulsión de corriente. En cambio, los perfiles radiales de plasma se modelan como polinomios cuyos coeficientes están restringidos por la corriente de plasma Ip más dos parámetros libres: la presión de plasma normalizada βp, que es la relación entre la presión cinética y la presión magnética, y el factor de seguridad en el eje del plasma. qA, que controla el pico de densidad de corriente.

La evolución de la corriente de plasma total Ip se describe como una ecuación de parámetros concentrados sobre la base de la ley de Ohm generalizada para el modelo magnetohidrodinámico. Para este modelo, la resistencia total del plasma, Rp, y la autoinducción total del plasma, Lp, son parámetros libres. Finalmente, FGE produce las mediciones magnéticas sintéticas que simulan los sensores TCV, que se utilizan para aprender las políticas de control, como se analiza a continuación.

En el experimento con las gotas (Fig. 4), el plasma se considera sin presión, lo que simplifica la solución numérica de la ecuación de equilibrio de fuerzas. Además, la bobina G se deshabilitó en la simulación, ya que se colocó en circuito abierto durante los experimentos (los campos radiales rápidos que genera se consideraron innecesarios para estos plasmas). Este experimento utilizó un modelo anterior para la evolución de Ip diseñado para la operación de plasma en estado estacionario. Este modelo tiene un parámetro libre, el perfil radial de la conductividad del plasma paralelo neoclásico \({\sigma }_{\parallel }\) (ref. 22). Este modelo fue reemplazado por el descrito anteriormente para el experimento de plasma de un solo dominio, ya que describe mejor la evolución de Ip, especialmente cuando está cambiando rápidamente.

Variamos los parámetros de evolución del plasma presentados anteriormente durante el entrenamiento para proporcionar un rendimiento sólido en la condición verdadera pero desconocida del plasma. La cantidad de variación se establece dentro de los rangos identificados a partir de los datos experimentales, como se muestra en la Tabla 2 de datos ampliados. En los experimentos de un solo plasma, variamos la resistividad del plasma Rp, así como los parámetros de perfil βp y qA. Lp no varía, ya que se puede calcular a partir de una relación simple36. Todos estos se muestrean de forma independiente a partir de una distribución logarítmica uniforme específica del parámetro. En el experimento con gotas, variamos los valores iniciales de corriente de la bobina óhmica de acuerdo con una distribución uniforme. Establecemos dos valores diferentes para los componentes de la gota \({\sigma }_{\parallel }\). Tomamos una muestra del logaritmo de la diferencia entre ellos de una distribución beta escalada y el cambio general en la media geométrica combinada de una distribución logarítmica uniforme, y luego resolvemos para el \({\sigma }_{\parallel }\ individual). Los valores de los parámetros se muestrean al comienzo de cada episodio y se mantienen constantes durante la simulación. El valor muestreado no se expone deliberadamente a la arquitectura de aprendizaje porque no se puede medir directamente. Por lo tanto, el agente se ve obligado a aprender un controlador que pueda manejar de manera robusta todas las combinaciones de estos parámetros. Esta técnica de aleatorización de dominio informada y dirigida demostró ser efectiva para encontrar políticas que rastrean los objetivos de tiempo para la forma y la Ip mientras es resistente a la inyección de calor externo y las perturbaciones del modo localizado en el borde durante el modo de alto confinamiento.

Los datos sin procesar del sensor en TCV pasan por una etapa de acondicionamiento de señal y filtrado de paso bajo37. Modelamos esta etapa en simulación mediante un retraso de tiempo y un modelo de ruido gaussiano, identificados a partir de datos durante una fase de operación de plasma estacionario (Tabla 2 de datos extendidos). Este modelo de sensor (que se muestra en la Fig. 1b) captura la dinámica relevante que afecta la estabilidad del control. La dinámica de la fuente de alimentación (que también se muestra en la Fig. 1b) se modela con un sesgo fijo y un retraso de tiempo fijo identificado a partir de los datos, así como una compensación adicional que varía aleatoriamente al comienzo de cada episodio. Los valores para estas modificaciones se pueden encontrar en la Tabla 2 de datos ampliados. Esta es una aproximación conservadora de las verdaderas fuentes de alimentación basadas en tiristores37, pero captura la dinámica esencial para propósitos de control.

La política de control puede aprender a ser robusta frente a fenómenos específicos de hardware muy no lineales. Por ejemplo, cuando la corriente en las bobinas activas cambia de polaridad y el controlador solicita un voltaje demasiado bajo, las fuentes de alimentación pueden "atascarse", proporcionando erróneamente una corriente de salida cero durante un período prolongado (Datos extendidos Fig. 4b). Este fenómeno puede afectar tanto a la estabilidad como a la precisión del controlador. Para demostrar la capacidad de nuestro controlador para manejar este problema, aplicamos 'evitación de región aprendida' en la demostración de control avanzado para indicar que las corrientes cercanas a cero no son deseables. Como resultado, la política de control aprende efectivamente a aumentar los voltajes al cambiar la polaridad de corriente para evitar bobinas atascadas en la planta (Datos extendidos Fig. 4c).

MPO23 utiliza dos arquitecturas de redes neuronales para diseñar y optimizar la política: la red crítica y la red de políticas. Ambas redes se adaptan durante el entrenamiento, pero solo la red de políticas se implementa en la planta.

Para la red crítica, las entradas se combinan con el valor de la función tangente hiperbólica de la última acción comandada y se alimentan a una capa de memoria a corto plazo (LSTM) de 256 unidades de ancho. Las salidas de la capa LSTM luego se concatenan con sus entradas y se alimentan a un perceptrón multicapa (MLP), es decir, una pila de dos capas ocultas densamente conectadas con 256 latentes cada una. Cada una de las capas MLP utiliza una no linealidad de unidad lineal exponencial. Finalmente, usamos una última capa lineal para generar el valor Q.

La red de políticas está restringida a una arquitectura de red que se puede evaluar en el hardware de destino dentro de los 50 μs para obtener la tasa de control necesaria de 10 kHz. Además, la red necesita realizar esta inferencia con suficiente precisión numérica en el sistema de control, que utiliza una arquitectura de procesador diferente del hardware utilizado para el entrenamiento. Por lo tanto, la red de políticas se construye de la siguiente manera. Alimentamos las entradas a una pila de una capa lineal con 256 salidas. Las salidas de esta capa lineal se normalizan con LayerNorm38 y se delimitan mediante una función de tangente hiperbólica. Después de esto, la salida se alimenta a través de un MLP de tres capas utilizando no linealidad de unidad lineal exponencial y 256 latentes cada uno. La salida de esta pila se alimenta a través de una capa lineal final que genera dos parámetros por acción: una media de la distribución gaussiana y una desviación estándar de la distribución gaussiana. La desviación estándar utiliza una no linealidad más suave para asegurarse de que siempre sea positiva. Los parámetros de esta distribución gaussiana sobre las acciones son la salida de la red neuronal. Tenga en cuenta que, para evaluar la política en simulación y ejecución en TCV, solo se utiliza la media de la distribución. Con esta pequeña red neuronal, podemos realizar inferencias dentro del caché L2 de la CPU en el sistema de control.

Estas redes neuronales se inicializan con los pesos de una distribución normal truncada escalada con el número de entradas y un sesgo de cero. La excepción es la última capa de la red de políticas, que se inicializa de la misma manera pero se escala con 0,0001 (ref. 39). Estas redes están entrenadas con una longitud de desenrollado de 64 pasos. Para la formación, utilizamos un tamaño de lote de 256 y un descuento de 0,99.

Datos extendidos La figura 5a muestra la importancia de un diseño asimétrico entre la red del actor y la red crítica. Comparamos la configuración estándar con una configuración simétrica en la que el crítico también está limitado por la tasa de control en la planta. En la configuración estándar, la red crítica es mucho más grande que la red política (718 337 parámetros en comparación con 266 280 parámetros) y también utiliza un LSTM recurrente. En la configuración simétrica, el crítico también es un MLP que tiene aproximadamente el mismo tamaño que la política (266 497 parámetros). Vemos que el diseño simétrico tiene un rendimiento notablemente inferior al diseño asimétrico en el aprendizaje de una política eficaz. Además, encontramos que el principal beneficio proviene del diseño recurrente en la crítica para manejar las propiedades no markovianas de este entorno. Cuando ampliamos la crítica manteniendo la estructura de avance de la política, encontramos que ampliar su ancho a 512 unidades (926,209 parámetros) o incluso 1,024 unidades (3,425,281 parámetros) aún no coincide con el rendimiento de la configuración con la crítica más pequeña pero recurrente .

Nuestro enfoque utiliza un enfoque de entrenamiento episódico en el que los datos se recopilan ejecutando el simulador con una política de control en el ciclo, como se muestra en la figura 1a. Los datos de estas interacciones se recopilan en un búfer de capacidad finita de tipo primero en entrar, primero en salir40. Las trayectorias de interacción son muestreadas aleatoriamente desde el búfer por un 'aprendiz', que ejecuta el algoritmo MPO para actualizar los parámetros de la política de control. Durante el entrenamiento, la política de control ejecutada es estocástica para explorar opciones de control exitosas. Esta política estocástica está representada por una distribución gaussiana diagonal sobre las acciones de la bobina.

Cada episodio corresponde a una única ejecución de simulación que finaliza cuando se alcanza una condición de finalización, que analizaremos a continuación, o cuando ha transcurrido un tiempo de simulación fijo en el episodio. Este tiempo fijo fue de 0,2 s para las gotitas, 0,5 s en el caso de Extended Data Fig. 2a, c, y 1 s en caso contrario. Cada episodio se inicializa a partir de un estado de equilibrio en el tiempo de entrega preprogramado, que se reconstruyó a partir de un experimento anterior en TCV.

Nuestro bucle de entrenamiento emula la frecuencia de control de 10 kHz. En cada paso, la política se evalúa utilizando la observación del paso anterior. La acción resultante se aplica luego al simulador, que luego se escalona. Las observaciones y recompensas también se recopilan en la frecuencia de control de 10 kHz, lo que da como resultado datos de entrenamiento recopilados en intervalos de 0,1 ms. Para nuestra simulación, elegimos un paso de tiempo de 50 kHz. Por lo tanto, para cada evaluación de la política, se calculan cinco pasos de tiempo de simulación. La acción, es decir, el voltaje de bobina deseado, se mantiene constante durante estos subpasos. Los datos de los pasos intermedios solo se utilizan para verificar las condiciones de terminación y luego se descartan. Esto permite elegir la tasa de control y el paso de tiempo del simulador de forma independiente y, por lo tanto, configurar este último sobre la base de consideraciones numéricas.

Utilizamos una arquitectura distribuida41 con una única instancia de aprendizaje en una unidad de procesamiento de tensor y varios actores, cada uno de los cuales ejecuta una instancia independiente del simulador. Usamos 5000 actores en paralelo para nuestros experimentos, lo que generalmente resultó en tiempos de entrenamiento de 1 a 3 días, aunque a veces más para especificaciones de objetivos complejos. Hicimos un barrido en la cantidad de actores requeridos para estabilizar un plasma básico y los resultados se pueden ver en Datos extendidos Fig. 5. Vemos que se puede lograr un nivel similar de rendimiento con una gran reducción en la cantidad de actores para un costo moderado en tiempo de entrenamiento.

Como RL solo interactúa en forma de muestra con el medio ambiente, la política podría ajustarse aún más con los datos de la interacción con la planta. Alternativamente, uno podría imaginar aprovechar la base de datos de experimentos anteriores realizados en TCV para mejorar la política. Sin embargo, no está claro si los datos son lo suficientemente diversos, dada la versatilidad de TCV y el hecho de que se puede lograr la misma configuración de plasma mediante varias configuraciones de voltaje de bobina. Especialmente para formas de plasma previamente desconocidas, no hay datos disponibles o solo hay datos muy limitados, lo que hace que este enfoque sea ineficaz. Por el contrario, el simulador puede modelar directamente la dinámica de las configuraciones de interés. Este problema en el que la recopilación de datos requiere una buena política se vuelve aún más pronunciado si se quiere optimizar una política de novo a partir de datos, sin depender de un modelo de simulador.

Todos nuestros experimentos tienen varios objetivos que deben ser satisfechos simultáneamente. Estos objetivos se especifican como componentes de recompensa individuales que rastrean un aspecto de la simulación, generalmente, una cantidad física, y estos componentes individuales se combinan en un único valor de recompensa escalar. Las descripciones de los objetivos utilizados se enumeran en la Tabla 4 de datos ampliados. Los valores objetivo de los objetivos a menudo varían en el tiempo (por ejemplo, la corriente de plasma y los puntos objetivo límite) y se envían a la política como parte de las observaciones. Esta traza de objetivos variable en el tiempo se define mediante una secuencia de valores en puntos en el tiempo, que se interpolan linealmente para todos los pasos de tiempo intermedios.

Los objetivos de forma para cada experimento se generaron utilizando el generador de formas42 o se especificaron manualmente. Luego, estos puntos se canonicalizan en 32 puntos igualmente espaciados a lo largo de una spline, que son los objetivos que se alimentan a la política. La spline es periódica para formas cerradas pero no periódica para formas desviadas, terminando en los puntos X.

El proceso para combinar estos múltiples objetivos en un solo escalar es el siguiente. Primero, para cada objetivo, se calcula la diferencia entre los valores real y objetivo, y luego se transforma con una función no lineal en una medida de calidad entre 0 y 1. En el caso de un objetivo de valor vectorial (por ejemplo, la distancia a cada punto de forma objetivo), las diferencias individuales se fusionan primero en un solo escalar a través de un 'combinador', una función no lineal ponderada. Finalmente, una combinación ponderada de las medidas de calidad específicas del objetivo individual se calcula en un solo valor de recompensa escalar entre 0 y 1 utilizando un combinador como el anterior. Esta recompensa (paso a paso) luego se normaliza para que la recompensa acumulada máxima sea 100 por 1 s de control. En los casos en que la política de control ha provocado una rescisión, se otorga una gran recompensa negativa. Consulte la Tabla 5 de datos ampliados para obtener más detalles.

Por lo general, calculamos la medida de calidad a partir del error mediante un softplus o sigmoide, que proporciona una señal de aprendizaje distinta de cero al principio del entrenamiento cuando los errores son grandes, al mismo tiempo que fomenta la precisión a medida que mejora la política. Del mismo modo, combinamos las recompensas utilizando un máximo suave (ponderado) o una media geométrica, lo que da un mayor gradiente para mejorar la peor recompensa, al mismo tiempo que fomenta la mejora de todos los objetivos. Las definiciones precisas de recompensas utilizadas en cada uno de nuestros experimentos se enumeran en la Tabla de datos ampliados 3 y las implementaciones están disponibles en el material complementario.

Algunos controladores exhibieron varios comportamientos interesantes, que se mencionan brevemente aquí. Estos comportamientos de control insinúan otras capacidades potenciales de los enfoques de control aprendido.

Se aplicó calentamiento externo durante el experimento que se muestra en la Fig. 3b. Primero realizamos un experimento de prueba sin calefacción, pero exactamente con el mismo controlador y objetivos. Esto proporciona una prueba de repetibilidad simple en la ventana de control antes de aplicar el calentamiento. En la Fig. 3 de datos ampliados se muestra una comparación de rendimiento que muestra que, en estos dos experimentos, el controlador se desempeñó de manera similar.

Cuando se le dio el objetivo de mantener solo la posición y la corriente del plasma, nuestra arquitectura construyó de forma autónoma un plasma de baja elongación que elimina el modo de inestabilidad vertical (Datos extendidos Fig. 4a), sin que se le indique explícitamente que lo haga.

Nuestra arquitectura de control puede optar naturalmente por utilizar una combinación variable de campo poloidal y bobinas óhmicas para impulsar el voltaje inductivo requerido para mantener la corriente de plasma (Datos extendidos, Fig. 4b), en contraste con las arquitecturas de control existentes que normalmente asumen una separación estricta.

Nuestra arquitectura puede aprender a incluir solicitudes físicas y de control no lineales agregando objetivos a la especificación de la meta. Puede, por ejemplo, evitar limitaciones en las fuentes de alimentación que ocasionalmente causan corrientes de bobina de control 'atascadas' cuando se invierte la polaridad (Datos extendidos Fig. 4c) y evitar puntos X en el recipiente pero fuera del plasma (Datos extendidos Fig. 4d ) cuando se solicita con recompensas de alto nivel.

Vemos que, para algunas cantidades, hay un error de estado estable en el valor objetivo (por ejemplo, κ en Datos extendidos Fig. 3). El desarrollo futuro se orientará hacia la eliminación de tales errores, por ejemplo, haciendo que la política de control sea recurrente en lugar de retroalimentada. Se debe tener cuidado para garantizar que estas políticas recurrentes más poderosas no se especialicen demasiado en la dinámica específica del simulador y continúen transfiriéndose a TCV con éxito.

Como la naturaleza estocástica de la política de entrenamiento solo es útil para la exploración, la política de control final se toma como la media de la política gaussiana al final del entrenamiento. Esto da una política determinista para ejecutar en la planta. Durante la capacitación, supervisamos la calidad de esta política determinista antes de la implementación.

El lazo de control de TCV funciona a 10 kHz, aunque solo la mitad del tiempo de ciclo, es decir, 50 μs, está disponible para el algoritmo de control debido a otro procesamiento y registro de señales. Por lo tanto, creamos un sistema de implementación que compila nuestra red neuronal en un código con capacidad en tiempo real que se garantiza que se ejecutará dentro de esta ventana de tiempo. Para lograr esto, eliminamos pesos y cálculos superfluos (como la varianza de exploración) y luego usamos tfcompile43 para compilarlo en código binario, evitando cuidadosamente dependencias innecesarias. Adaptamos la estructura de la red neuronal para optimizar el uso de la memoria caché del procesador y habilitar instrucciones vectorizadas para un rendimiento óptimo. La tabla de objetivos de control variables en el tiempo también se compila en el binario para facilitar la implementación. En el trabajo futuro, los objetivos podrían proporcionarse fácilmente en tiempo de ejecución para ajustar dinámicamente el comportamiento de la política de control. Luego, probamos todas las políticas compiladas en un punto de referencia extenso y automatizado antes de la implementación para garantizar que los tiempos se cumplan de manera consistente.

La forma y la posición del plasma no se observan directamente y deben deducirse de las mediciones magnéticas disponibles. Esto se hace con la reconstrucción del equilibrio magnético, que resuelve un problema inverso para encontrar la distribución de corriente de plasma que respeta el equilibrio de fuerzas (ecuación de Grad-Shafranov) y se ajusta mejor a las medidas magnéticas experimentales dadas en un momento específico en un sentido de mínimos cuadrados. .

En un diseño de control magnético convencional, se necesita una reconstrucción del equilibrio magnético con capacidad en tiempo real como observador de forma de plasma para cerrar el circuito de retroalimentación de control de forma (que se muestra como el observador de "forma de plasma" en la Fig. 1f). En nuestro enfoque, en cambio, solo utilizamos la reconstrucción de equilibrio con el código LIUQE10 durante el análisis posterior a la descarga para validar el rendimiento del controlador de forma de plasma y calcular las condiciones físicas iniciales para la simulación durante el entrenamiento.

Después de ejecutar el experimento, usamos este código de reconstrucción del equilibrio para obtener una estimación del estado del plasma y el campo de flujo magnético. El uso de este enfoque es consistente con la literatura previa para evaluar el desempeño9,10.

El límite del plasma está definido por la última superficie de flujo cerrado (LCFS) en el dominio. Extraemos el LCFS como 32 puntos equiangulares alrededor del eje del plasma y luego canonicalizamos con splines a 128 puntos equidistantes. La distancia de error se calcula usando la distancia más corta entre cada uno de los puntos que definieron la forma del objetivo y el polígono definido por los 128 puntos en el LCFS. La forma RMSE se calcula a través de estas 32 distancias de error en todos los pasos de tiempo en el rango de tiempo de interés.

Los errores en cantidades escalares, como Ip o elongación, se calculan a partir del error entre la referencia y la estimación respectiva de la reconstrucción del equilibrio durante el período de tiempo de interés. La estimación de la tasa de crecimiento de la inestabilidad por desplazamiento vertical6 se calcula a partir de una descomposición espectral del sistema linealizado de ecuaciones del simulador en torno al equilibrio reconstruido.

En los últimos años se han aplicado técnicas de control avanzadas al control del confinamiento magnético. De Tommasi et al.44 describen un enfoque de control basado en modelos para el control de la posición del plasma usando un modelo lineal y una estructura de control de retroalimentación en cascada. Gerkšič y De Tommasi45 proponen un enfoque de control predictivo del modelo, que demuestra el control predictivo del modelo lineal para la posición del plasma y el control de la forma en la simulación, incluida una estimación de viabilidad para la implementación del hardware. Boncagni et al.46 han propuesto un controlador de conmutación que mejora el seguimiento de la corriente de plasma en el hardware pero sin demostrar otras capacidades. Ha habido otros trabajos previos en los que RL ha aprendido sobre modelos de plasma, por ejemplo, a controlar el factor de seguridad47 oa controlar el gradiente iónico-temperatura48. Recientemente, Seo et al.49 desarrollaron señales feedforward para el control beta usando RL, que luego se verificaron en el tokamak KSTAR.

De manera más general, se están desarrollando enfoques basados ​​en el aprendizaje automático para el control y la fusión de confinamiento magnético en general, sin limitarse al control. Humphreys et al.14 proporcionan una encuesta de esta área, quienes clasificaron los enfoques en siete Oportunidades de investigación prioritarias, incluida la aceleración de la ciencia, el diagnóstico, la extracción de modelos, el control, los grandes datos, la predicción y el desarrollo de plataformas. Bishop et al.15 presentan el uso temprano de redes neuronales en un circuito de control para el control del plasma, quienes utilizaron una red neuronal a pequeña escala para estimar la posición del plasma y los parámetros de forma de baja dimensión, que posteriormente se utilizaron como señales de error para la retroalimentación. control.

Nuestra arquitectura constituye un importante paso adelante en términos de generalidad, en el que se utiliza un solo marco para resolver una amplia variedad de desafíos de control de fusión, satisfaciendo varias de las promesas clave del aprendizaje automático y la inteligencia artificial para fusión establecidas en la ref. 14

Nuestro enfoque se ha demostrado con éxito en TCV y estamos seguros de que, con algunas modificaciones básicas, nuestro enfoque se puede aplicar directamente a otros tokamaks que cumplan con algunos supuestos y requisitos técnicos establecidos a continuación. Se ha confirmado que todos los tokamaks actuales respetan, desde el punto de vista del control magnético, las ecuaciones acopladas resueltas por simuladores de límite libre. Los controladores de equilibrio se han diseñado rutinariamente sobre la base de estos modelos y, para futuros tokamaks, no hay razón hasta el momento para creer que este modelo ya no será válido. Naturalmente, no podemos predecir el rendimiento de nuestro enfoque en otros tipos de dispositivos.

Para simular un dispositivo diferente, los parámetros del simulador de límite libre deberán configurarse adecuadamente. Esto incluye la descripción de la máquina con las ubicaciones y las propiedades eléctricas de las bobinas, el recipiente y el limitador, las características del sensor y del actuador, como los rangos de corriente y voltaje, el ruido y el retardo. También es necesario determinar las condiciones operativas, como el rango esperado de variación de los parámetros del perfil. Finalmente, las recompensas y los objetivos deben actualizarse para que coincidan con la geometría y las formas deseadas.

Las características antes mencionadas deben estar fácilmente disponibles, ya que normalmente forman parte del proceso de diseño de un tokamak determinado. De hecho, los cálculos de equilibrio de Grad-Shafranov se llevan a cabo de forma rutinaria para el diseño y análisis general de un nuevo tokamak, y estos incluyen todos los parámetros necesarios. Estas variaciones en la geometría del recipiente y el número, ubicación y rango de sensores y bobinas no deberían requerir cambios en el algoritmo de aprendizaje más allá de ajustar los límites del diseño. El algoritmo de aprendizaje ajustará automáticamente las dimensiones de las capas de entrada y salida para la red neuronal y aprenderá automáticamente una política adecuada para la nueva embarcación y el sistema de control.

Se requieren consideraciones adicionales para la implementación. Nuestro enfoque requiere un sistema de control centralizado con suficiente poder computacional para evaluar una red neuronal en la frecuencia de control deseada, aunque una CPU de escritorio es suficiente para cumplir con este requisito. Además, se necesita un controlador magnético existente para realizar la descomposición del plasma y la aceleración temprana antes de pasar al controlador aprendido. Aunque nuestros controladores están capacitados para evitar terminaciones en simulación correspondientes a criterios de interrupción, no se garantiza que eviten interrupciones de plasma. Por lo tanto, si el tokamak objetivo no puede tolerar ciertos tipos de interrupciones, se debe implementar una capa de protección de la máquina, como un controlador de respaldo más simple o un sistema de enclavamiento, durante los experimentos.

Los datos experimentales de TCV de las imágenes de este documento están disponibles en la Información complementaria. Los datos de origen se proporcionan con este documento.

El algoritmo de aprendizaje utilizado en el método RL actor-crítico es MPO23, cuya implementación de referencia está disponible bajo una licencia de código abierto41. Además, se utilizaron las bibliotecas de software launchpad50, dm_env51, sonnet52, tensorflow53 y reverb40, que también están disponibles como código abierto. El código para computar los objetivos de control, recompensas y bajas está disponible en la Información Complementaria. FGE y LIUQE están disponibles sujetos al acuerdo de licencia del Swiss Plasma Center en EPFL (Antoine Merle [email protected], Federico Felici [email protected]).

Hofmann, F. et al. Creación y control de plasmas de forma variable en TCV. Física del plasma. Control. Fusión 36, B277 (1994).

Artículo ADS CAS Google Académico

Coda, S. et al. Investigación física en la instalación TCV tokamak: de escenarios convencionales a escenarios alternativos y más allá. Núcleo Fusión 59, 112023 (2019).

Artículo ADS CAS Google Académico

Anand, H., Coda, S., Felici, F., Galperti, C. & Moret, J.-M. Un novedoso controlador de posición y forma de plasma para el desarrollo de configuraciones avanzadas en el TCV tokamak. Núcleo Fusión 57, 126026 (2017).

Artículo ANUNCIOS Google Académico

Mele, A. et al. Control de forma MIMO en el tokamak EAST: simulaciones y experimentos. Fusión Ing. Des. 146, 1282–1285 (2019).

Artículo CAS Google Académico

Anand, H. et al. Control de expansión de flujo de plasma en el tokamak DIII-D. Física del plasma. Control. Fusión 63, 015006 (2020).

Artículo ANUNCIOS Google Académico

De Tommasi, G. Control magnético de plasma en dispositivos tokamak. J. Fusion Energy 38, 406–436 (2019).

Artículo Google Académico

Walker, ML & Humphreys, DA Sistemas de coordenadas válidos para modelos de respuesta de forma de plasma linealizados en tokamaks. Ciencia Fusión. Tecnología 50, 473–489 (2006).

Artículo CAS Google Académico

Blum, J., Heumann, H., Nardon, E. & Song, X. Automatización del diseño de escenarios de experimentos con tokamak. J. Cómputo. física 394, 594–614 (2019).

Artículo ADS MathSciNet Google Scholar

Ferrón, JR et al. Reconstrucción de equilibrio en tiempo real para control de descarga de tokamak. Núcleo Fusión 38, 1055 (1998).

Artículo ADS CAS Google Académico

Moret, J.-M. et al. Código de Reconstrucción de Equilibrio Tokamak LIUQE y su Implementación en Tiempo Real. Ingeniería de Fusión. Dic. Rev. 91, 1–15 (2015).

Artículo CAS Google Académico

Xie, Z., Berseth, G., Clary, P., Hurst, J. y van de Panne, M. Control de retroalimentación para Cassie con aprendizaje de refuerzo profundo. En 2018 Conferencia internacional IEEE/RSJ sobre sistemas y robots inteligentes (IROS) 1241–1246 (IEEE, 2018).

Akkaya, I. et al. Resolviendo el cubo de Rubik con una mano robótica. Preimpresión en https://arxiv.org/abs/1910.07113 (2019).

Bellemare, MG et al. Navegación autónoma de globos estratosféricos mediante aprendizaje por refuerzo. Naturaleza 588, 77–82 (2020).

Artículo ADS CAS Google Académico

Humphreys, D. et al. El avance de la fusión con el informe del taller de necesidades de investigación de aprendizaje automático. J. Fusion Energy 39, 123–155 (2020).

Artículo CAS Google Académico

Bishop, CM, Haynes, PS, Smith, ME, Todd, TN & Trotman, DL Control en tiempo real de un plasma tokamak mediante redes neuronales. Cómputo neuronal. 7, 206–217 (1995).

Artículo Google Académico

Joung, S. et al. Solucionador de redes neuronales profundas Grad-Shafranov restringido con señales magnéticas medidas. Núcleo Fusión 60, 16034 (2019).

Artículo Google Académico

van de Plassche, KL et al. Modelado rápido de transporte turbulento en plasmas de fusión utilizando redes neuronales. física Plasmas 27, 022310 (2020).

Artículo ANUNCIOS Google Académico

Abbate, J., Conlin, R. & Kolemen, E. Predicción de perfil basada en datos para DIII-D. Núcleo Fusión 61, 046027 (2021).

Artículo ADS CAS Google Académico

Kates-Harbeck, J., Svyatkovskiy, A. y Tang, W. Predicción de inestabilidades disruptivas en plasmas de fusión controlados a través del aprendizaje profundo. Naturaleza 568, 526–531 (2019).

Artículo ADS CAS Google Académico

Jardin, S. Métodos Computacionales en Física de Plasma (CRC Press, 2010).

Grad, H. & Rubin, H. Equilibrios hidromagnéticos y campos libres de fuerza. J. Nucl. Energía (1954) 7, 284–285 (1958).

Artículo Google Académico

Carpanese, F. Desarrollo de soluciones de transporte y equilibrio de límite libre para simulación e interpretación en tiempo real de experimentos Tokamak. Tesis doctoral, EPFL (2021).

Abdolmaleki, A. et al. Iteración de política regularizada de entropía relativa. Preimpresión en https://arxiv.org/abs/1812.02256 (2018).

Paley, JI, Coda, S., Duval, B., Felici, F. & Moret, J.-M. Arquitectura y puesta en marcha del sistema de control de realimentación distribuida TCV. En 2010 17th IEEE-NPSS Real Time Conference 1–6 (IEEE, 2010).

Freidberg, JP Plasma Physics and Fusion Energy (Cambridge Univ. Press, 2008).

Hommen, GD et al. Reconstrucción de límites de plasma óptico en tiempo real para control de posición de plasma en el TCV Tokamak. Núcleo Fusión 54, 073018 (2014).

Artículo ADS CAS Google Académico

Austin, ME y col. Logro del rendimiento relevante del reactor en forma de triangularidad negativa en el tokamak DIII-D. física Rev. Lett. 122, 115001 (2019).

Artículo ADS CAS Google Académico

Kolemen, E. et al. Desarrollo inicial del control del desviador de copos de nieve DIII–D. Núcleo Fusión 58, 066007 (2018).

Artículo ANUNCIOS Google Académico

Anand, H. et al. Control magnético en tiempo real de la configuración del plasma de copos de nieve en el tokamak TCV. Núcleo Fusión 59, 126032 (2019).

Artículo ADS CAS Google Académico

Wigbers, M. & Riedmiller, M. Un nuevo método para el análisis del control del modelo de referencia neural. En Proc. Conferencia internacional sobre redes neuronales (ICNN'97) vol. 2, 739–743 (IEEE, 1997).

Berkenkamp, ​​F., Turchetta, M., Schoellig, A. & Krause, A. Aprendizaje por refuerzo seguro basado en modelos con garantías de estabilidad. En 2017 Avances en sistemas de procesamiento de información neuronal 908–919 (ACM, 2017).

Wabersich, KP, Hewing, L., Carron, A. & Zeilinger, MN Certificación de seguridad predictiva del modelo probabilístico para el control basado en el aprendizaje. IEEE Tran. Aparato mecánico. Control 67, 176–188 (2021).

Artículo MathSciNet Google Académico

Abdolmaleki, A. et al. Sobre la optimización de políticas multiobjetivo como herramienta para el aprendizaje reforzado. Preimpresión en https://arxiv.org/abs/2106.08199 (2021).

Coda, S. et al. Descripción general del programa TCV tokamak: progreso científico y mejoras de las instalaciones. Núcleo Fusión 57, 102011 (2017).

Artículo ANUNCIOS Google Académico

Karpushov, AN et al. Calentamiento de haz neutro en el tokamak TCV. Ingeniería de Fusión. Dic. Rev. 123, 468–472 (2017).

Artículo CAS Google Académico

Lister, JB et al. Modelado y validación de respuesta de equilibrio de plasma en JT-60U. Núcleo Fusión 42, 708 (2002).

Artículo ADS CAS Google Académico

Lister, JB et al. El control de plasmas variables de configuración tokamak. Tecnología Fusión. 32, 321–373 (1997).

Artículo CAS Google Académico

Ulyanov, D., Vedaldi, A. y Lempitsky, V. Normalización de instancias: el ingrediente que falta para una estilización rápida. Preimpresión en https://arxiv.org/abs/1607.08022 (2016).

Andrychowicz, M. et al. ¿Qué importa en el aprendizaje por refuerzo de la política? Un estudio empírico a gran escala. En ICLR 2021 Novena Conferencia Internacional sobre Representaciones de Aprendizaje (2021).

Cassirer, A. et al. Reverberación: un marco para la reproducción de experiencias. Preimpresión en https://arxiv.org/abs/2102.04736 (2021).

Hoffman, M. et al. Acme: un marco de investigación para el aprendizaje por refuerzo distribuido. Preimpresión en https://arxiv.org/abs/2006.00979 (2020).

Hofmann, F. FBT: un código de equilibrio tokamak de límite libre para plasmas altamente alargados y formados. computar física común 48, 207–221 (1988).

Artículo ADS CAS Google Académico

Abadi, M. et al. TensorFlow: un sistema para el aprendizaje automático a gran escala. En Proc. 12º Simposio USENIX sobre diseño e implementación de sistemas operativos (OSDI '16) 265–283 (2016).

De Tommasi, G. et al. Estabilización vertical de plasma basada en modelos y control de posición en EAST. Fusión Ing. Des. 129, 152–157 (2018).

Artículo Google Académico

Gerkšič, S. & De Tommasi, G. Control de forma y corriente de plasma ITER mediante MPC. En 2016 Conferencia IEEE sobre aplicaciones de control (CCA) 599–604 (IEEE, 2016).

Boncagni, L. et al. Conmutación de controlador basada en el rendimiento: una aplicación para el control de corriente de plasma en FTU. En 2015 54th IEEE Conference on Decision and Control (CDC) 2319–2324 (IEEE, 2015).

Wakatsuki, T., Suzuki, T., Hayashi, N., Oyama, N. & Ide, S. Control del perfil del factor de seguridad con consumo de flujo de solenoide central reducido durante la fase de aceleración de corriente de plasma utilizando una técnica de aprendizaje de refuerzo. Núcleo Fusión 59, 066022 (2019).

Artículo ADS CAS Google Académico

Wakatsuki, T., Suzuki, T., Oyama, N. y Hayashi, N. Control de gradiente de temperatura de iones mediante la técnica de aprendizaje por refuerzo. Núcleo Fusión 61, 046036 (2021).

Artículo ADS CAS Google Académico

Seo, J. et al. Control beta feedforward en el tokamak KSTAR mediante aprendizaje de refuerzo profundo. Núcleo Fusión 61, 106010 (2021).

Artículo ADS CAS Google Académico

Yang, F. et al. Launchpad: un modelo de programación para la investigación de aprendizaje automático distribuido. Preimpresión en https://arxiv.org/abs/2106.04516 (2021).

Muldal, A. et al. dm_env: una interfaz de Python para entornos de aprendizaje por refuerzo. http://github.com/deepmind/dm_env (2019).

Reynolds, M. et al. Sonnet: biblioteca de redes neuronales basada en TensorFlow. http://github.com/deepmind/sonnet (2017).

Martín A. et al. TensorFlow: aprendizaje automático a gran escala en sistemas heterogéneos. Software disponible en https://www.tensorflow.org/ 2015.

Hender, TC et al. Capítulo 3: Estabilidad de MHD, límites operativos e interrupciones. Núcleo Fusión 47, S128–S202 (2007).

Descargar referencias

Agradecemos el trabajo y el apoyo del equipo de TCV (consulte la lista de autores de Coda et al.2) para permitir estos resultados experimentales. Damos las gracias a C. Wüthrich y Y. Andrebe de apoyo con el diagnóstico. Agradecemos a C. Jones y E. Smith por su ayuda estratégica e inspiración al inicio del proyecto. Agradecemos a R. Ahamed, P. Komarek, V. Panneershelvam y F. Song por su apoyo en la preparación y durante esta investigación. Este trabajo fue apoyado en parte por la Fundación Nacional de Ciencias de Suiza.

Estos autores contribuyeron igualmente: Jonas Degrave, Federico Felici, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Martin Riedmiller

DeepMind, Londres, Reino Unido

Jonas Degrave, Jonas Buchli, Michael Neunert, Brendan Tracey, Francesco Carpanese, Timo Ewalds, Roland Hafner, Abbas Abdolmaleki, Diego de las Casas, Craig Donner, Leslie Fritz, Andrea Huber, James Keeling, Maria Tsimpoukelli, Jackie Kay, Seb Noury, David Pfau, Pushmeet Kohli, Koray Kavukcuoglu, Demis Hassabis y Martin Riedmiller

Swiss Plasma Center - EPFL, Lausana, Suiza

Federico Felici, Francesco Carpanese, Cristian Galperti, Antoine Merle, Jean-Marc Moret, Federico Pesamosca, Olivier Sauter, Cristian Sommariva, Stefano Coda, Basil Duval & Ambrogio Fasoli

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

BT, FC, FF, JB, JD, MN, MR, RH y TE contribuyeron por igual. DP, FF, JB, JD, MR y RH concibieron el proyecto. AH, BT, FF, JB, JD, LF, MN y MR lideraron el proyecto. AM, BT, CD, CS, FC, FF, FP, JB, J.-MM, MN y OS desarrollaron las simulaciones físicas. BT, CD, DC, FF, JD, J. Kay, MN, MT y TE integraron las simulaciones de física con el marco de aprendizaje. AA, BT, JD, J. Keeling, RH y TE desarrollaron el marco de aprendizaje y realizaron experimentos de aprendizaje. CG, DC, FF, JB, JD, MN, SN y TE desarrollaron la interfaz de red neuronal en tiempo real. CG, FC, FF, JD y SC integraron la red neuronal en tiempo real con el sistema de control y realizaron experimentos tokamak. CD, DC, FC, FF, JB, J. Keeling, MN y TE desarrollaron herramientas de curación de datos. BT, CG, FC, FF, JB, J. Keeling, MN, RH y TE desarrollaron y ejecutaron el análisis de datos. AF, BD, DH, SC, KK y PK consultados para el proyecto. BT, FC, FF, JB, JD, MN, MR, RH y TE escribieron el manuscrito.

Correspondencia a Federico Felici, Jonas Buchli o Brendan Tracey.

BT, FC, FF, JB, JD, MN, RH y TE han presentado una solicitud de patente provisional sobre el contenido de este manuscrito. Los autores restantes declaran no tener intereses contrapuestos.

Nature agradece a Takuma Wakatsuki y a los demás revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

a, b Fotografías que muestran la parte del TCV dentro del bioshield. c Dibujo CAD del recipiente y bobinas del TCV. d Vista del interior del TCV (Alain Herzog/EPFL), mostrando el embaldosado del limitador, los deflectores y la columna central.

Trazamos los valores reconstruidos para la presión normalizada βp y el factor de seguridad qA, junto con el rango de aleatorización de dominio que vieron estas variables durante el entrenamiento (en verde), que se puede encontrar en la Tabla 2 de datos ampliados. También trazamos la tasa de crecimiento, γ , y la corriente de plasma, Ip, junto con el valor objetivo asociado. Donde sea relevante, trazamos el alargamiento κ, el calentamiento del haz neutral, la triangularidad δ y la posición vertical del punto X inferior ZX y su objetivo.

Datos fuente

Para ilustrar la variabilidad del desempeño que nuestro controlador determinista logra en el medio ambiente, hemos trazado las trayectorias de una política que se usó dos veces en la planta: en el disparo 70599 (en azul) y en el disparo 70600 (en naranja). La línea punteada muestra dónde se ilustran las secciones transversales del recipiente. Las trayectorias se muestran desde el traspaso a los 0,0872 s hasta los 0,65 s después de la avería, después de lo cual, en el disparo 70600, se encendió la calefacción del haz neutro y los dos disparos divergieron. La línea verde muestra la distancia RMSE entre el LCFS en los dos experimentos, proporcionando una medida directa de la similitud de forma entre los dos disparos. Esto ilustra la repetibilidad de los experimentos tanto en los parámetros de forma como el alargamiento κ y la triangularidad δ como en el error logrado con respecto a los objetivos en la corriente de plasma Ip y la forma de la última superficie de flujo cerrado.

Datos fuente

a, Cuando se le pide que estabilice el plasma sin más especificaciones, el agente crea una forma redonda. El agente tiene el control desde t = 0,45 y cambia de forma mientras intenta alcanzar los objetivos Ra y Za. Este comportamiento descubierto es de hecho una buena solución, ya que este plasma redondo es intrínsecamente estable con una tasa de crecimiento γ < 0. b, cuando no se le da una recompensa por tener una corriente similar en ambas bobinas óhmicas, el algoritmo tendía a usar las bobinas E para obtener el mismo efecto que la bobina OH001. De hecho, esto es posible, como puede verse por las posiciones de la bobina en la figura 1g, pero provoca fuerzas electromagnéticas en las estructuras de la máquina. Por lo tanto, en tomas posteriores, se agregó una recompensa para mantener la corriente en ambas bobinas óhmicas juntas. c, Solicitudes de voltaje por la política para evitar que la bobina E3 se pegue al cruzar 0 A. Como se puede ver, por ejemplo, en Extended Data Fig. 4b, las corrientes pueden quedarse estancadas en 0 A para solicitudes de bajo voltaje, una consecuencia de cómo estas solicitudes son manejadas por el sistema de energía. Como este comportamiento era difícil de modelar, introdujimos una recompensa para mantener las corrientes de bobina lejos de 0 A. La política de control produce una solicitud de alto voltaje para moverse rápidamente a través de esta región. d, Una ilustración de la diferencia en las secciones transversales entre dos tomas diferentes, en la que la única diferencia es que la política de la derecha fue entrenada con una recompensa adicional por evitar los puntos X en el vacío.

Datos fuente

Recompensa episódica de la política determinista suavizada a lo largo de 20 episodios con variaciones de parámetros habilitadas, en los que 100 significa que todos los objetivos se cumplen a la perfección. una comparación de la curva de aprendizaje para el punto de referencia de capacidad (como se muestra en la Fig. 2) usando nuestro actor-crítico asimétrico versus un actor-crítico simétrico, en el que el crítico está usando la misma red de retroalimentación con capacidad en tiempo real que el actor. En azul está el rendimiento con la crítica por defecto de 718.337 parámetros. En naranja, mostramos la versión simétrica, en la que el crítico tiene la misma estructura y tamaño de feedforward (266 497 parámetros) que la política (266 280 parámetros). Cuando mantenemos la estructura feedforward del crítico simétrico y escalamos el crítico, encontramos que ampliar su ancho a 512 unidades (en verde, 926,209 parámetros) o incluso 1,024 unidades (en rojo, 3,425,281 parámetros) no cierra la brecha de rendimiento con la crítica recurrente menor. b comparación entre el uso de varias cantidades de actores para estabilizar un plasma levemente alargado. Aunque las políticas de este documento se entrenaron con 5000 actores, esta comparación muestra que, al menos para los casos más simples, se puede lograr el mismo nivel de rendimiento con recursos computacionales mucho más bajos.

Datos fuente

Este archivo contiene una descripción general de los archivos ubicados en la carpeta de datos complementarios comprimida adjunta.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Degrave, J., Felici, F., Buchli, J. et al. Control magnético de plasmas tokamak a través del aprendizaje de refuerzo profundo. Naturaleza 602, 414–419 (2022). https://doi.org/10.1038/s41586-021-04301-9

Descargar cita

Recibido: 14 julio 2021

Aceptado: 01 diciembre 2021

Publicado: 16 febrero 2022

Fecha de emisión: 17 de febrero de 2022

DOI: https://doi.org/10.1038/s41586-021-04301-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Reseñas de Física moderna del plasma (2023)

Comunicaciones de la naturaleza (2022)

Nature Reviews Física (2022)

Inteligencia artificial de la naturaleza (2022)

Informes científicos (2022)

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.