En este tema discutiré los tipos de
datos que existen, si eres DBA o trabajas con bases de datos, no
abordaré el tema desde el punto de vista del almacenamiento, es decir,
no comentaré que es un varchar, un integer, un double etc. En vez de ello,
entraré en el aspecto de la información y como tratarla.
Cabe destacar que existen muchos tipos
de conjuntos de datos, mientras algunos pueden ser cualitativos,
otros serán cuantitativos, otros pueden tener características
enlazadas etcétera. Ello conlleva a que sea difícil poder crear
alguna taxonomía que los distinga, sin embargo, existen ciertas
generalidades que abordaré en esta entrada.
Un conjunto de datos puede ser
visto como una colección de objetos u observaciones. Estos están
configurados por una serie de atributos que capturan las
características básicas del objeto que se intenta describir.
Tipos de atributos
Existen varias
maneras de dividir los tipos de atributos, la manera en que la
minería de datos lo realiza (al menos la forma mas simple de hacerlo)
es identificando las propiedades del mismo de la siguiente manera:
- Distinción (Se les puede realizar operaciones como = y !=)
- Ordenamiento (Operaciones del tipo >,<=,<,<=)
- Adición (sumar o restar)
- Multiplicación (producto y división)
Identificando las
propiedades que puede obedecer un atributo los clasificamos en :
nominal,ordinal, intervalo y ratio. La siguiente tabla muestra mas
claramente esto:
Tipos de atributo
|
Descripción
|
Ejemplos
|
|
Cualitativo |
Nominal |
Estos atributos solo proveen la información suficiente como
para poder distinguir uno de otro |
Clave de empleado, códigos postales, género, nombres. |
Ordinal |
Proveen información suficiente como para poder ordenarlos |
Medidas del tipo bueno, malo, regular. |
|
Cuantitativo |
Intervalo |
En estos la diferencia entre los valores es significativa |
Fechas, grados de temperatura,
|
Ratio |
Tanto sus diferencias como sus porcentajes son significativos |
Salarios, edad, masa, peso. |
Los atributos de
los tipos nominales y ordinales son también conocidos como
categóricos ó cualitativos, cabe destacar, que no importa que estén
representados por números, por ejemplo, no tiene mucho sentido
realizar multiplicaciones a una clave de empleado o un código
postal.
Los atributos del
tipos intervalo y ratio son conocidos como cuantitativos o numéricos,
no tiene mucho caso el explicar ¿por qué?.
Cada tipo de
atributo tiene determinadas transformaciones permisibles (aquellas
operaciones que pueden realizarse a los mismos y que no afectan el
significado del mismo)
Tipos de atributo |
Transformación permitida |
Ejemplos |
|
Cualitativo |
Nominal |
Cualquier mapeo del tipo uno a uno. |
No importa reasignar
una nueva clave de empleado. |
Ordinal |
Cualquier cambio que preserve el orden |
Bueno, Regular, Malo puede representarse como 0,1,2 |
|
Cuantitativo |
Intervalo |
ValorNuevo = a * valorActual + b, en donde a y b son constantes |
Cambio entre grados fahrenheit y celsius. |
Ratio |
ValorNuevo = a * valorActual |
Las unidades de medida pueden ser tomadas en sistema ingles o
sistema métrico |
Cabe mencionar la existencia de los
atributos del tipo asimétrico, en estos atributos solo es importante
aquellos que tengan valor, es decir, se maneja una estructura de es
o no es, ejemplo : Una lista de asistencia, que tenga un atributo
llamado asistió y se coloca un 1 cuando la persona ha llegado y nada
o un cero cuando no lo hizo.
Características Generales de los
Conjuntos de Datos
A pesar de que
cada conjunto de datos es único “” existen ciertas
caracterìsticas comunes que la mayoria comparte:
- Dimensionalidad: Es el número de atributos que puedan poseer, conjuntos de datos con pocas variables tienden a ser mas cualitativos que aquellos que poseen muchos atributos.
- Escasez: Para algunos conjuntos, en especial aquellos que poseen atributos asimétricos, suele ocurrir que muy pocos de sus valores son útiles para su estudio (Se puede eliminar aquellos que no tienen valor).
- Resolución: Existen ciertos conjuntos en los cuales el nivel de detalle es importante, por ejemplo, en un conjunto de datos de imágenes como google maps, dependiendo del acercamiento de la imagen es como podríamos distinguir calles, casas etc.
- Registro de datos: Usualmente los atributos de cada fila guardan relación con sus columnas.
Clave
Nombre
Dirección
Salario
9878
Juan Nepomuceno
Calle escutia número 1234
23000
9879
Sophia Vladislav
Calle Arkansas número 34
22000
- Transacción: Existen algunos conjuntos en donde cada registro guarda un conjunto de diferente tamaño de objetos
Número_compra
Artículos
1
Pan, galletas, refresco
2
Zanahoria, papas, espárragos, calabaza, vino
- Matriz de datos: Son parecidos a los registros de datos, con la particularidad de que todos sus atributos son numéricos:
Ancho
Largo
Espesor
Kilos
10
20
30
6000
45
13
12
7020
- Datos gráficos: En algunos conjuntos su información está íntimamente relacionada, se pueden dar generalmente dos casos: 1) datos relacionados con otros datos, por ejemplo, las redes sociales , en donde cada objeto persona tiene relaciones con otros objetos personas. 2) datos relacionados que son gráficos, aquí la estructura posee ciertas reglas, como ejemplo, una estructura química.
- Series de tiempo: Son datos en donde se introduce el factor tiempo, por ejemplo, un video que tenga una resolución de 600 * 800 a una velocidad de 24 * segundo, esto es tenemos una matriz de 600 filas y 800 columnas, y poseemos 24 de estas matrices cada segundo, cada una relacionada con la anterior por un x intervalo de tiempo.
- Datos temporales: Aquí importa el orden de tiempo en que ocurrió cada registro, por ejemplo, se almacena el historial de compra de un cliente guardando los días en que compró determinado artículo, de esta manera se procede a tomar decisiones cuando determinada fecha se acerque, si sabemos que en navidad el cliente n compro un pavo, entonces para la próxima navidad tendremos un pavo para ese cliente.
- Datos secuenciales: En estos tipos de conjuntos lo que importa en el orden es la posición, se puede tener un registro que indique que los clientes cuando comprar pañales posteriormente comprar cerveza, entonces ¿seria buena idea poner cervezas junto a los pañales?, fuera de broma es por ello que colocan chocolates cerca de los juguetes para niños.
- Datos espaciales: Contienen datos espaciales o de ubicación geográfica, se distinguen en la forma de tratar sus datos, ya que , por ejemplo, en el caso de un conjunto de datos de clima, podemos saber que si en un punto en particular está lloviendo, entonces en una delimitada área, sin leer los datos, podríamos estar seguros de que arrojan información parecida, es decir, que está lloviendo.
Una característica
en común de todos los conjuntos es la calidad de su información, de
hecho, gran parte del proceso de trabajo de la minería de datos es
luchar contra la calidad de los mismos. Los problemas mas típicos
son los siguientes:
- Ruido: Básicamente son registros incorrectos o basura, por ejemplo, imaginemos que tenemos un registro corporal de pacientes y en uno de ellos tenemos que un sujeto que mide 2 metros pesa 5 kilos. Lo mas común con el ruido es detectarlo e ignorarlo o eliminarlo
- Outlier: Son registros raros, es decir, a diferencia del ruido son correctos pero no comunes, por ejemplo, supongamos que tenemos en el atributo estatura un valor de 2.40 metros, si bien , en realidad existe una persona de esa estatura, no es para nada común, de hecho podría ser el único registro con esa estatura.
- Valores faltantes: Usualmente por error al ingresar los datos se suelen omitir ciertos valores en los atributos, en estos casos, se suele estimarlos,ignorarlos o eliminarlos.
- Valores duplicados: sin comentarios aquí, simplemente son registros idénticos. Usualmente no aportan información extra y suelen ser eliminados.
Pre-procesamiento de los datos
Comúnmente se suele
realizar ciertas operaciones a los conjuntos de datos para poder
trabajar mas fácil con ellos. Existen diversos tipos de algoritmos
con innumerables objetivos para poder trabajar de mejor manera la
información, sin embargo, las técnicas mas comunes son:
- Agregación: Existen casos en los que dos atributos se pueden combinar en uno solo sin afectar la información, por ejemplo, supongamos que tenemos dos atributos que guardan la información de alto y ancho de diversos rectángulos, podríamos, si esto no afecta, eliminar dichos atributos (ancho y largo) y colocar un nuevo atributo llamado área que es el cálculo de ambos.
- Muestreo: En ciertas ocasiones, no es conveniente trabajar con todos los datos, en su lugar, se trabaja con un subconjunto de ellos, por ejemplo, si tenemos un conjunto de datos de todas las ventas a nivel nacional, tal vez sea mas práctico realizar el cálculo para una determinada ciudad o estado.
- Reducción de la dimensionalidad: En determinados casos, suele ocurrir que poseemos atributos que son irrelevantes para determinados procesos, es conveniente en este caso ignorar dichos atributos, eliminarlos o posiblemente procesarlos de tal manera que sean útiles.
- Creación de registros: En algunos conjuntos de datos, es posible predecir nuevos registros a partir de los actuales, incluso puede ser que los nuevos registros generados expliquen mas claramente el fenómeno.
- Discretización y binarización: Es común que para poder trabajar mejor con los datos se requiera que ciertos atributos, si no todos, sean transformados a valores categóricos (discretización) o a valores binarios. Como ejemplo, puede ser mas fácil trabajar el atributo estatura de la forma menores de 1.60 metros, entre 1.60 y 1.80 metros y mayores a 1.80 metros, que trabajar con el dato de estatura sin categorías, esto es : 1.59, 1.68, 1.78,1.89 etc.
- Transformación de variables: Es posible, en determinados casos, aplicar alguna fórmula a algún atributo, por ejemplo, supongamos que tenemos la variable salario y queremos verificar el potencial de compra de nuestros clientes, seria práctico deducirles sus impuestos con tal de tener un valor que represente mejor su potencial de compra.
Hablar de conjuntos de datos es un tema muy amplio, en entregas posteriores me meteré mas de lleno con el procesamiento de los mismo, es decir, el trabajo duro de la minería de datos.
No hay comentarios:
Publicar un comentario