¿Es la disponibilidad de más datos siempre útil en la producción de conocimiento?
Enviado por Ninoka • 10 de Julio de 2018 • 1.358 Palabras (6 Páginas) • 436 Visitas
...
El hecho de que exista una clasificación para las fuentes históricas, hace referencia a que para los investigadores de todo tipo es más importante la calidad de su información que su cantidad.
Ahora bien, si hablamos de las matemáticas y sus subáreas de conocimiento o campos afines, existe una perspectiva diferente. Se podría explorar una cuestión como “¿Mientras más información mejor?” dentro de la presente investigación, pero esta atacaría fuertemente a la idea antes aportada. Para ello se explica de qué se trata tal cuestión a continuación.
Actualmente el campo de Teoría Computacional de Aprendizaje (Computational Learning Theory o solo Learning Theory) de acuerdo a la Association for Computational Learning “es un campo de investigación dedicado a estudiar el diseño y análisis de algoritmos de aprendizaje automático. En particular, estos algoritmos tienen como objetivo hacer predicciones exactas o representaciones basadas en observaciones”[4]. Estos conceptos representan una parte integral del aprendizaje de máquinas, un innovador y vanguardista campo de estudio dentro de la ingeniería, especialmente como parte del desarrollo de inteligencias artificiales. Básicamente la idea es que estos algoritmos o técnicas permiten a un computador aprender. ¿Podríamos decir entonces que, mientras más información mejor?
En el libro Fundamentos de Aprendizaje de Máquinas (Foundations of Machine Learning), se define al aprendizaje de máquinas como “métodos computacionales usando experiencia para mejorar el desempeño o para hacer predicciones exactas. (...) Experiencia se refiere a información pasada disponible para el que aprende, (...) en forma de datos electrónicos recolectados y disponibles para el análisis.”[5]. Lo que nos permite pensar que aquí, los conjuntos de datos son increíblemente necesarios, tomando en cuenta que presentan cierta categoría de importancia de acuerdo a su propósito. Se puede decir entonces que mientras más información mejor, en este pequeño contexto. Pero como para cualquier idea innovadora existen obstáculos, el aprendizaje de máquinas posee uno muy substancial.
El problema en este caso no está relacionado a la cantidad de datos, sino a su complejidad. Todos los pormenores se han cristalizado en lo que se conoce como “Maldición de la Dimensión” (Curse of Dimensionality). Formalmente esto significa que “el número de muestras necesarias para calcular una función arbitraria con un nivel dado de precisión crece exponencialmente con respecto al número de variables de entrada (es decir, dimensionalidad) de la función”[6]. En breves rasgos, un problema de aumento de dimensiones al tratar de involucrar demasiadas variables en un sistema.
Con esto, es posible retomar la idea original de calidad antes que cantidad para determinadas situaciones y con el ánimo de emplear datos que sirvan de manera efectiva en una investigación. Aunque no se pueda contrastar directamente con el aprendizaje de máquinas, puesto a que la complejidad de las máquinas que se ha creado, no supera a la de los seres humanos (que guarda verdaderos y fascinantes misterios), la “Maldición de la Medición” surge debido al aprendizaje de aquellas máquinas, que se encuentran un paso aún muy alejado del nivel humano.
Como conclusión, se llegó a conocer que la disponibilidad de más datos para generar conocimiento no siempre es útil, y peor aún si estos son complejos en gran medida. Esta afluencia de datos excesiva puede llegar a generar problemas tanto para el autor de conocimiento como para la naturaleza de los datos mismos en lo referente a su análisis. Se debe optar, y es recomendable preferir una cantidad de datos que presenten sistematización y fiabilidad (calidad) para la el análisis y construcción de conocimiento, y no datos de contenido irrelevante, desmesurado y/o poco fiable (cantidad). La disponibilidad de datos a emplearse depende del contexto de la investigación que se maneja, sin embargo, se prefiere calidad antes que cantidad.
Palabras: 1242
---------------------------------------------------------------
...