Agrupación de líneas similares de un dataframe para detectar duplicados

Tengo unconjunto de datos que contiene todos los anuncios inmobiliarios en venta en curso de publicación de una ciudad :

    ID  URL CRAWL_SOURCE    PROPERTY_TYPE   NEW_BUILD   DESCRIPTION IMAGES  SURFACE LAND_SURFACE    BALCONY_SURFACE ... DEALER_NAME DEALER_TYPE CITY_ID CITY    ZIP_CODE    DEPT_CODE   PUBLICATION_START_DATE  PUBLICATION_END_DATE    LAST_CRAWL_DATE LAST_PRICE_DECREASE_DATE 0   22c05930-0eb5-11e7-b53d-bbead8ba43fe    http://www.avendrealouer.fr/location/levallois...   A_VENDRE_A_LOUER    APARTMENT   False   Au rez de chaussée d'un bel immeuble récent,...   ["https://cf-medias.avendrealouer.fr/image/_87...   72.0    NaN NaN ... Lamirand Et Associes    AGENCY  54178039    Levallois-Perret    92300.0 92  2017-03-22T04:07:56.095 NaN 2017-04-21T18:52:35.733 NaN 1   8d092fa0-bb99-11e8-a7c9-852783b5a69d    https://www.bienici.com/annonce/ag440414-16547...   BIEN_ICI    APARTMENT   False   Je vous propose un appartement dans la rue Col...   ["http://photos.ubiflow.net/440414/165474561/p...   48.0    NaN NaN ... Proprietes Privees  MANDATARY   54178039    Levallois-Perret    92300.0 92  2018-09-18T11:04:44.461 NaN 2019-06-06T10:08:10.89  2018-09-25 

Me gustaría agrupar los anuncios inmobiliarios de un mismo inmueble. En efecto, varios profesionales (ver particular) publican anuncios en varios portales inmobiliarios de un mismo inmueble.

ID  URL CRAWL_SOURCE    PROPERTY_TYPE   NEW_BUILD   DESCRIPTION IMAGES  SURFACE LAND_SURFACE    BALCONY_SURFACE ... DEALER_NAME DEALER_TYPE CITY_ID CITY    ZIP_CODE    DEPT_CODE   PUBLICATION_START_DATE  PUBLICATION_END_DATE    LAST_CRAWL_DATE LAST_PRICE_DECREASE_DATE 

¿Qué metodología podría usar para detectar duplicados si las filas no lo son? Hasta ahora he pensado eitehr de comprobar si la descripción es exactamente la misma (pero tendría que eliminar los caracteres especiales antes) o si las imágenes en la url son las mismas (pero no soy una estrella en el procesamiento de imágenes)

En mi opinión, en la medida en que la gente que publique las mismas casas lo haga en un sitio web diferente, no serán duplicados en el mismo sitio web. Probablemente la gente publica la misma “DESCRIPCION” o las mismas “IMAGENES”. Las casas seguramente tienen la misma superficie, sin embargo, podemos tener varios distribuidores para una misma casa. Así que lo hice:

# Añadamos una nueva columna booleana a nuestro DataFrame que identificará una partida de pedido duplicada (False=Not a duplicate; True=Duplicate) df['is_duplicated'] = df.duplicated(['DESCRIPCION']) 

E hizo la suma:

# Podemos sumar en una columna booleana para obtener un recuento de los artículos de orden duplicados. df['is_duplicated'].sum() 

Que devolvió 249. Aún no sé cómo comparar las imágenes.

¿Existe una mejor estrategia?

SQL select filtrar dato solo si todos los registros son similares

me gustaría filtrar en sql todos los nombres solo si todos los registros que posee son inactivos

ejemplo de datos

Id | nombre | estado 1 |  pepe | activo 2 | pepe | activo 3 | pepe | inactivo 4 | pepe | inactivo 5 | pepe | inactivo 6 | pepe | inactivo 7 | agusto | inactivo 8 | agusto | inactivo 9 | agusto| inactivo 

Resultado esperando agusto

Unica consulta em múltiplas tabelas similares – Entity Core 2.0

Tenho uma view que faz um union all em varias tabelas similares

 SELECT Id, Codigo, Descricao, TopologiaId, TipoEntidadeId FROM [dbo].[Blend]    UNION    SELECT Id, Codigo, Descricao, TopologiaId, TipoEntidadeId FROM [dbo].[Conjunto] Select.... Union....Select 

Estou removendo todas as procedures e views para consultas direto no C#

Agora estou com problemas para achar um jeito limpo de fazer o union em meu código.

Acredito que a melhor maneira não seja concatenar na hora da consulta, pois minha view tem mais de 20 tabelas mapeadas, isso deixaria o código “sujo”.

Vi alguns tópicos como POCO class e splitting mas não achei nada que me atende ainda.

Gostaria de ser capaz de fazer a consulta como

var retorno = _UnitofOr.SimilarTable.Get(); 

Onde SimilarTable retorna os registros das tabelas Blend e Conjunto

Estou usando Entity com repositório generico