El nuevo proyecto de generación de datos sintéticos de código abierto de Capital One

En el acelerado mundo del aprendizaje automático, la innovación requiere aprovechar los datos. Sin embargo, la realidad para muchas empresas es que el acceso a los datos y a los controles ambientales que son vitales para la seguridad también pueden añadir ineficiencia al desarrollo del modelo y al ciclo de vida de las pruebas.

Para superar este desafío -y ayudar a otros a hacerlo también- Capital One es de código abierto Un nuevo proyecto llamado Datos Sintéticos. «Con esta herramienta, el intercambio de datos se puede realizar de forma segura y rápida, lo que permite probar hipótesis e iterar ideas más rápidamente», dijo Taylor Turner, ingeniero líder de aprendizaje automático y codesarrollador de Synthetic Data.

Los datos sintéticos crean datos artificiales que pueden usarse en lugar de datos «reales». A menudo contienen los mismos gráficos y propiedades estadísticas que los datos originales, pero no incluyen información de identificación personal. Son muy útiles en situaciones que requieren conjuntos de datos complejos y no lineales, como suele ser el caso en los modelos de aprendizaje profundo.

Contenido relacionado:
Aprendizaje federado de código abierto de Capital One con agregación de modelos federados
Cómo Capital One usa Python para ejecutar aplicaciones sin servidor

Para utilizar datos sintéticos, el creador del modelo proporciona las propiedades estadísticas del conjunto de datos necesarios para el experimento. Por ejemplo, la distribución marginal entre insumos, la correlación entre insumos y la expresión analítica que relaciona insumos con productos.

«Y luego puedes experimentar a tu gusto», dijo Brian Barr, ingeniero senior de aprendizaje automático e investigador de Capital One. «Es lo más simple posible, pero técnicamente flexible según sea necesario para realizar este tipo de aprendizaje automático».

READ AirPods 3 vs Samsung Galaxy Buds Pro: una comparación de los verdaderos auriculares inalámbricos

Según Barr, hubo algunos esfuerzos iniciales en la década de 1980 en torno a datos sintéticos que llevaron a capacidades en la popular biblioteca de aprendizaje automático Python. aprendizaje-scikit. Sin embargo, a medida que evoluciona el aprendizaje automático, estas capacidades “no son tan flexibles y perfectas para el aprendizaje profundo ya que existen relaciones no lineales entre entradas y salidas”, dijo Barr.

Nace el Proyecto Datos Sintéticos en Capital One Programa de investigación de aprendizaje automático Se centra en explorar y aprovechar métodos, aplicaciones y tecnologías avanzadas de aprendizaje automático para hacer que la banca sea más sencilla y segura. Los datos sintéticos se crearon basándose en Trabajo de investigación de Capital One“Hacia la interpretabilidad de la verdad basada en datos tabulares”, coescrito por Barr.

Proyecto también Funciona bien con el perfil de datos, La biblioteca de aprendizaje automático de código abierto de Capital One para monitorear big data y descubrir información confidencial que necesita una protección adecuada. Un perfilador de datos puede recopilar estadísticas que representan un conjunto de datos y luego se pueden generar datos sintéticos basados en esas estadísticas empíricas.

«Compartir nuestra investigación y crear herramientas para la comunidad de código abierto es una parte importante de nuestra misión en Capital One», dijo Turner. «Esperamos continuar explorando las sinergias entre la elaboración de perfiles de datos y los datos sintéticos y compartir las lecciones aprendidas».

Visita perfil de datos Y Datos sintéticos Repositorios en GitHub y visite el stand de Capital One (#1150) en Re AWS: inventado (27/11 al 1/12) para ver una demostración del perfil de datos.

READ Un dispositivo innovador para el estudiante inteligente de hoy - Samsung Newsroom Argentina

Vinicio Terrazas

«Food ninja. Freelance pop culture fanatic. Wannabe zombie maven. Twitter aficionado.»

El nuevo proyecto de generación de datos sintéticos de código abierto de Capital One

China, Rusia y Corea del Norte aceleran el uso de IA en ciberataques, alerta Google

El Galaxy Watch Ultra 2025 de Samsung baja a su precio más bajo hasta la fecha

Saros saca partido a una de las funciones más infrautilizadas de PS5

Corridas Generales de Bilbao 2026: ya tienen fechas oficiales para la próxima Aste Nagusia

La Vía Láctea sobrevivió a una violenta batalla galáctica contra todo pronóstico científico

Amazon pone a la venta una casa prefabricada expandible de dos plantas con hasta seis dormitorios por menos de 12.000 euros

La NASA prueba helicópteros supersónicos para futuras misiones en Marte

Entradas recientes

Deja una respuesta Cancelar la respuesta

More Stories