Fermín Pitol, Blog de Inteligencia Artificial en Español: Conjuntos de datos

En este tema discutiré los tipos de datos que existen, si eres DBA o trabajas con bases de datos, no abordaré el tema desde el punto de vista del almacenamiento, es decir, no comentaré que es un varchar, un integer, un double etc. En vez de ello, entraré en el aspecto de la información y como tratarla.

Cabe destacar que existen muchos tipos de conjuntos de datos, mientras algunos pueden ser cualitativos, otros serán cuantitativos, otros pueden tener características enlazadas etcétera. Ello conlleva a que sea difícil poder crear alguna taxonomía que los distinga, sin embargo, existen ciertas generalidades que abordaré en esta entrada.

Un conjunto de datos puede ser visto como una colección de objetos u observaciones. Estos están configurados por una serie de atributos que capturan las características básicas del objeto que se intenta describir.

Tipos de atributos

Existen varias maneras de dividir los tipos de atributos, la manera en que la minería de datos lo realiza (al menos la forma mas simple de hacerlo) es identificando las propiedades del mismo de la siguiente manera:

Distinción (Se les puede realizar operaciones como = y !=)
Ordenamiento (Operaciones del tipo >,<=,<,<=)
Adición (sumar o restar)
Multiplicación (producto y división)

Identificando las propiedades que puede obedecer un atributo los clasificamos en : nominal,ordinal, intervalo y ratio. La siguiente tabla muestra mas claramente esto:

Tipos de atributo		Descripción	Ejemplos
Cualitativo	Nominal	Estos atributos solo proveen la información suficiente como para poder distinguir uno de otro	Clave de empleado, códigos postales, género, nombres.
Cualitativo	Ordinal	Proveen información suficiente como para poder ordenarlos	Medidas del tipo bueno, malo, regular.
Cuantitativo	Intervalo	En estos la diferencia entre los valores es significativa	Fechas, grados de temperatura,
Cuantitativo	Ratio	Tanto sus diferencias como sus porcentajes son significativos	Salarios, edad, masa, peso.

Los atributos de los tipos nominales y ordinales son también conocidos como categóricos ó cualitativos, cabe destacar, que no importa que estén representados por números, por ejemplo, no tiene mucho sentido realizar multiplicaciones a una clave de empleado o un código postal.

Los atributos del tipos intervalo y ratio son conocidos como cuantitativos o numéricos, no tiene mucho caso el explicar ¿por qué?.

Cada tipo de atributo tiene determinadas transformaciones permisibles (aquellas operaciones que pueden realizarse a los mismos y que no afectan el significado del mismo)

Tipos de atributo		Transformación permitida	Ejemplos
Cualitativo	Nominal	Cualquier mapeo del tipo uno a uno.	No importa reasignar una nueva clave de empleado.
Cualitativo	Ordinal	Cualquier cambio que preserve el orden	Bueno, Regular, Malo puede representarse como 0,1,2
Cuantitativo	Intervalo	ValorNuevo = a * valorActual + b, en donde a y b son constantes	Cambio entre grados fahrenheit y celsius.
Cuantitativo	Ratio	ValorNuevo = a * valorActual	Las unidades de medida pueden ser tomadas en sistema ingles o sistema métrico

Cabe mencionar la existencia de los atributos del tipo asimétrico, en estos atributos solo es importante aquellos que tengan valor, es decir, se maneja una estructura de es o no es, ejemplo : Una lista de asistencia, que tenga un atributo llamado asistió y se coloca un 1 cuando la persona ha llegado y nada o un cero cuando no lo hizo.

Características Generales de los Conjuntos de Datos

A pesar de que cada conjunto de datos es único “” existen ciertas caracterìsticas comunes que la mayoria comparte:

Dimensionalidad: Es el número de atributos que puedan poseer, conjuntos de datos con pocas variables tienden a ser mas cualitativos que aquellos que poseen muchos atributos.
Escasez: Para algunos conjuntos, en especial aquellos que poseen atributos asimétricos, suele ocurrir que muy pocos de sus valores son útiles para su estudio (Se puede eliminar aquellos que no tienen valor).
Resolución: Existen ciertos conjuntos en los cuales el nivel de detalle es importante, por ejemplo, en un conjunto de datos de imágenes como google maps, dependiendo del acercamiento de la imagen es como podríamos distinguir calles, casas etc.

Registro de datos: Usualmente los atributos de cada fila guardan relación con sus columnas.

Clave	Nombre	Dirección	Salario
9878	Juan Nepomuceno	Calle escutia número 1234	23000
9879	Sophia Vladislav	Calle Arkansas número 34	22000

Transacción: Existen algunos conjuntos en donde cada registro guarda un conjunto de diferente tamaño de objetos

Número_compra
Artículos

1
Pan, galletas, refresco

2
Zanahoria, papas, espárragos, calabaza, vino

Matriz de datos: Son parecidos a los registros de datos, con la particularidad de que todos sus atributos son numéricos:

Ancho	Largo	Espesor	Kilos
10	20	30	6000
45	13	12	7020

Datos gráficos: En algunos conjuntos su información está íntimamente relacionada, se pueden dar generalmente dos casos: 1) datos relacionados con otros datos, por ejemplo, las redes sociales , en donde cada objeto persona tiene relaciones con otros objetos personas. 2) datos relacionados que son gráficos, aquí la estructura posee ciertas reglas, como ejemplo, una estructura química.
Series de tiempo: Son datos en donde se introduce el factor tiempo, por ejemplo, un video que tenga una resolución de 600 * 800 a una velocidad de 24 * segundo, esto es tenemos una matriz de 600 filas y 800 columnas, y poseemos 24 de estas matrices cada segundo, cada una relacionada con la anterior por un x intervalo de tiempo.
Datos temporales: Aquí importa el orden de tiempo en que ocurrió cada registro, por ejemplo, se almacena el historial de compra de un cliente guardando los días en que compró determinado artículo, de esta manera se procede a tomar decisiones cuando determinada fecha se acerque, si sabemos que en navidad el cliente n compro un pavo, entonces para la próxima navidad tendremos un pavo para ese cliente.
Datos secuenciales: En estos tipos de conjuntos lo que importa en el orden es la posición, se puede tener un registro que indique que los clientes cuando comprar pañales posteriormente comprar cerveza, entonces ¿seria buena idea poner cervezas junto a los pañales?, fuera de broma es por ello que colocan chocolates cerca de los juguetes para niños.
Datos espaciales: Contienen datos espaciales o de ubicación geográfica, se distinguen en la forma de tratar sus datos, ya que , por ejemplo, en el caso de un conjunto de datos de clima, podemos saber que si en un punto en particular está lloviendo, entonces en una delimitada área, sin leer los datos, podríamos estar seguros de que arrojan información parecida, es decir, que está lloviendo.

Una característica en común de todos los conjuntos es la calidad de su información, de hecho, gran parte del proceso de trabajo de la minería de datos es luchar contra la calidad de los mismos. Los problemas mas típicos son los siguientes:

Ruido: Básicamente son registros incorrectos o basura, por ejemplo, imaginemos que tenemos un registro corporal de pacientes y en uno de ellos tenemos que un sujeto que mide 2 metros pesa 5 kilos. Lo mas común con el ruido es detectarlo e ignorarlo o eliminarlo
Outlier: Son registros raros, es decir, a diferencia del ruido son correctos pero no comunes, por ejemplo, supongamos que tenemos en el atributo estatura un valor de 2.40 metros, si bien , en realidad existe una persona de esa estatura, no es para nada común, de hecho podría ser el único registro con esa estatura.
Valores faltantes: Usualmente por error al ingresar los datos se suelen omitir ciertos valores en los atributos, en estos casos, se suele estimarlos,ignorarlos o eliminarlos.
Valores duplicados: sin comentarios aquí, simplemente son registros idénticos. Usualmente no aportan información extra y suelen ser eliminados.

Pre-procesamiento de los datos

Comúnmente se suele realizar ciertas operaciones a los conjuntos de datos para poder trabajar mas fácil con ellos. Existen diversos tipos de algoritmos con innumerables objetivos para poder trabajar de mejor manera la información, sin embargo, las técnicas mas comunes son:

Agregación: Existen casos en los que dos atributos se pueden combinar en uno solo sin afectar la información, por ejemplo, supongamos que tenemos dos atributos que guardan la información de alto y ancho de diversos rectángulos, podríamos, si esto no afecta, eliminar dichos atributos (ancho y largo) y colocar un nuevo atributo llamado área que es el cálculo de ambos.
Muestreo: En ciertas ocasiones, no es conveniente trabajar con todos los datos, en su lugar, se trabaja con un subconjunto de ellos, por ejemplo, si tenemos un conjunto de datos de todas las ventas a nivel nacional, tal vez sea mas práctico realizar el cálculo para una determinada ciudad o estado.
Reducción de la dimensionalidad: En determinados casos, suele ocurrir que poseemos atributos que son irrelevantes para determinados procesos, es conveniente en este caso ignorar dichos atributos, eliminarlos o posiblemente procesarlos de tal manera que sean útiles.
Creación de registros: En algunos conjuntos de datos, es posible predecir nuevos registros a partir de los actuales, incluso puede ser que los nuevos registros generados expliquen mas claramente el fenómeno.
Discretización y binarización: Es común que para poder trabajar mejor con los datos se requiera que ciertos atributos, si no todos, sean transformados a valores categóricos (discretización) o a valores binarios. Como ejemplo, puede ser mas fácil trabajar el atributo estatura de la forma menores de 1.60 metros, entre 1.60 y 1.80 metros y mayores a 1.80 metros, que trabajar con el dato de estatura sin categorías, esto es : 1.59, 1.68, 1.78,1.89 etc.
Transformación de variables: Es posible, en determinados casos, aplicar alguna fórmula a algún atributo, por ejemplo, supongamos que tenemos la variable salario y queremos verificar el potencial de compra de nuestros clientes, seria práctico deducirles sus impuestos con tal de tener un valor que represente mejor su potencial de compra.

Hablar de conjuntos de datos es un tema muy amplio, en entregas posteriores me meteré mas de lleno con el procesamiento de los mismo, es decir, el trabajo duro de la minería de datos.

Fermín Pitol, Blog de Inteligencia Artificial en Español

Buscar este blog

domingo, 2 de marzo de 2014

Conjuntos de datos

No hay comentarios:

Número_compra	Artículos
1	Pan, galletas, refresco
2	Zanahoria, papas, espárragos, calabaza, vino