Decidir dónde, cuándo y cómo invertir no esta una tarea básica. Existen diversas variables que han de investigarse y tomar en consideración, sobretodo cuando se trata de una decisión que abarca una cantidad de capital significativa.Por ello, cuanta más información de calidad (importante!) se recopile sobre la inversión, más preciso es el resultado.

Nuestra finalidad es construir diferentes modelos de regresión sobre los precios de las propiedades del portal Idealista, integrando el registro de viviendas turísticas y estancias turísticas en viviendas de la isla de Mallorca como fuente externa.

La evaluación de propiedades se ha resuelto a lo largo de los años desde varias perspecticas. Desde la aplicación del método de precios hedónicos para explicar las variables determinantes, hasta el uso de técnicas complejas como las redes neuronales.

Conjunto de datos

Fuentes

Dado el interés en una área concreta, se cubre la zona geográfica del municipio de Palma de Mallorca dentre de un radio seleccionado.

Los datos principales de las propiedades se extraen por medio de la API de Idealista y como fuente externa, se integran datos a través del Portal OpenData del Gobierno.

El precio de las propiedades se describe por medio de diversidad de variables. Para una comprensión más detallada, se debería tomar en consideración la disponibilidad de transporte público cercano, lugares de interés público (gallerías,museos..) o infraestructuras (centros comerciales, parques…) que generalmente encarecen el precio.

En esta ocasión, nos centramos en las viviendas turísticas alrededor de las propiedades en venta. Se trata de realizar un recuento a través de las coordenadas en la distancia establecida para cada propiedad.

API Idealista

El portal inmobiliario Idealista proporciona una API para quienes quieran disponer de la información sobre viviendas en su base de datos.A partir de una url creada con unas premisas definidas por Idealista, cualquier usuario puede obtener la información. Para ello, proporcionan las claves de acceso, junto con la documentación en la que informan sobre las restricciones de uso. No se pueden realizar más de 100 llamadas por usuario y mes. Cada llamada devuelve un máximo de 50 observaciones. La búsqueda se ha de realizar por coordenadas geoespaciales.

A partir de las credenciales que nos han facilitado, solicitamos nuestro token. Para ello codificamos Apikey:Secreto en Base64, un sistema de numeración posicional que usa 64 como base y se aplica en la codificación. Recibido el token, solicitamos datos a la API de Idealista mediante los parámetros de búsqueda a partir de una posición (latitud y longitud) y un radio. En nuestro proyecto, se plantean varias llamadas hasta obtener un conjunto elevado de instancias.

Datos abiertos del Gobierno de España

El punto referente al número de estancias turísticas lo obtenemos en el catálogo de datos abiertos del Gobierno, publicado por el Gobierno de las Islas Baleares.

Del conjunto de datos de viviendas turísticas en Mallorca nos interesa las viviendas en la localidad de Palma de Mallorca. Todas ellas se encuentran dadas de alta, por lo tanto, tienen actividades en las distintas modalidades vacacionales.

Preparación de datos

Comenzamos comprobando la duplicidad de los datos, renombrado las columnas y descartando variables innecesarias. Sobre estas últimas, el motivo principal es por la redundancia en la información y variables que contienen información sobre las páginas de la web del portal (página en la que se encuentra la propiedad,items…).

Se sigue revisando los valores perdidos y ceros. En cuanto al tratamiento de tipos de datos, por el momento se tratarán las variables categóricas y numéricas como tal. En la medida de los algoritmos que se seleccionen, el soporte de tipo de datos varía, y por lo tanto se adecuará. Se ajustan los niveles de varias variables categóricas, a la vez que se corrigen nombres.

Por ejemplo, en el caso de la variable floor tratamos de armonizar los niveles, y establecer los niveles numéricamente.

Los siguientes casos se agruparán bajo el mismo nivel (nivel 1) :

  • entresuelo (“en”) solo tenemos dos propiedades
  • subsuelo (“ss”) contamos con una observación.
  • tipo de propiedades “chalet”, “countryHouse” (100 Y 4 observaciones respectivamente) no se indica la planta

Otro ejemplo sería la variable hasLift para la cual existe un tercer nivel que no es booleano. Para tratar de conocer a qué tipo de propiedades pertenece, puesto que en ocasiones no se indica porque se presupone que no procede y que se entiende el motivo por el que no tiene. Este tipos de propiedades son chalet y casas de campo en nuestro caso. Ambos suman 114 y 5 observaciones respectivamente. Para reducir el número de valores del tercer nivel vacío, indicaremos que los dos tipos de propiedades no tienen ascensor (False).

Para el resto de tipo de propiedades, pueden tener o no ascensor, y en estos casos se desconoce. El tratamiento a los casos que desconocemos, es convertir el valor en un string ‘unknow’

Se adjunta tabla con la descripción de las variables (renombradas)

Variable Descripción
id_property Número de identificación de la propiedad
floor Nivel de planta en la que se encuentra la propiedad
price Precio de la propiedad en euros
propertyType Tipo de propiedad
size Tamaño en metros cuadros de la propiedad
exterior Booleano (True o False) sobre la ubicación al exterior
rooms Número de habitaciones del inmueble
bathrooms Número de baños del inmueble
district Distrito en el que se encuentra el inmueble
neighborhood Barrio en el se encuentra el inmueble
latitude Coordenada latitud (UTM)
longitude Coordenada longitud (UTM)
distance Distancia entre el inmueble y el centro del municipio
status Condición de preservación de la propiedad
newDevelopment Booleano (True o False) si la propiedad es de nueva obra.
hasLift Booleano (True o False) si la propiedad tiene ascensor
priceByArea Precio por área de la propiedad
typology Tipo de inmueble

Integración fuente externa

Realizamos el recuento para cada propiedad de las viviendas turísticas a menos de 300 metros. El cálculo de distancias por medio de las coordenadas se implementa por medio de la fórmula del simverseno, que calcula el círculo máximo, es decir, la distancia que los separa entre dos puntos.

Existen métodos más precisos para calcular la distancia entre dos puntos, aunque por resultados ótptimos e implementanción sencilla se usa la fórmula Haversine. La simplicidad de la fórmula proviene en la asunción de que la Tierra es una esfera perfecta (lo cual no es así). Por ello, se puede incurrir en errores que mediante implementaciones más complejas se reducerían.

equation

con: equation

equation

equation

Exploración distribución de variables numércias

Seleccionamos las variables numéricas price y priceByArea, ya que hay valores elevados respecto a la mediana. Pueden no tratarse de errores, ya que viviendas como chalets o casas de campo pueden ascender a precios como los que encontramos de 3.7 hasta 5.9 millones, y por lo tanto el valor por metro cuadrado sea igualmente elevado. Inherente a ambos campos, es el tamaño de la propiedad, y por lo tanto otra característica numérica que acompaña a los valores altos.

Algunos modelos, tienden a lidiar mejor con los valores atípicos, y el ‘ruido’ puede afectar a los resultados de todos modos.Sin embargo, el impacto en los árboles de decisión es mayor.

Mediante los resultados de la función quantile_mark implementada podemos considerar para aquellos casos que tengan un precio menos a 117960 o mayor 3500000 serán atípicos. En el caso del precio por área éste límite viene marcado por 1.1794€/m2 y 12.99602€/m2. Para el tamaño de las propiedades se establece 48 y 715 metros cuadrados.

Para lidiar con valores atípicos y poder usar el modelo, marcamos los valores y de esta manera no serán usados en el entrenamiento del modelo.

png

png

png

Análisi exploratorio

Visualización espacial

Exploración precios y recuento viviendas turísticas cercanas

A simple vista, los precios en los distritos cercanos al anillo del centro de Palma son más altos. Es evidente que las propiedades cercanas, simplemente por su ubicación ya son elevadas.En la escala de precios, las propiedades en distritos adyacentes o por su cercanía al mar o paseos marítimos siguen a las propiedades céntricas.A medida que las propiedades se alejan del radio del centro disminuyen del precio.

Distribución por distritos y precios

En el siguiente mapa, se puede seleccionar los distritos y rango en el histograma de precios. El tratamiento de precios de propiedades atípicos en el conjunto de datos se realiza en el apartado posterior, de aquí que observemos propiedades de hasta 4.5 millones. Los distritos Sta Catalina-Son Armadan-Maritim, Ciutat Antigua y las Avenidad cuentan con mayor número de propiedades sobre el mapa. Propiedad en el rango de precios hasta los 260k dominan, pivotando precios por encima propiedades repartidas por los distintos distritos.

Análisis numérico

Una vez preparados los datos, realizamos una lectura breve

variables categóricas

Para las variables categóricas se muestra los resultados ordendados según la frecuencia, que rápidamente analiza las categorías con mayor frecuencia y qué porcentajes representan.

De la lectura general por medio de las gráficas, destacamos lo siguiente:

  • El mayor porcentaje de las plantas de las propiedades se acumulan son por orden de importancia en primera planta,segunda y tercera.
  • Sobre el 70% de las propiedades son pisos.
  • Los distritos en los que se reparten el mayor porcentaje de propiedades son Son Catalina-Son Armadans-Maritim, Ciutat Antigya y Las Avenidas. Destacar que son distritos cercanos al anillo del centro del municipio de Palma.
  • Tan solo el 3.4% son propiedades de nueva construcción.
  • Alrededor de 70% de las propiedades se encuentran a más de 1km del centro de Palma
DataPrep.EDA Report