OneHotEnconder com muitas colunas

Estou tentando usar o metodo OneHotEncoder do Spark em algumas colunas. Tentei realizar o seguinte procedimento mas estou obtendo IllegalArgumentException: u’Field “registro_ans_Index” does not exist.’

stringIndexer = StringIndexer(inputCol="registro_ans", outputCol="registro_ans_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="ref_codigo", outputCol="ref_codigo_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="dc_rc_servico", outputCol="dc_rc_servico_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="dc_atr_ori_servico", outputCol="dc_atr_ori_servico_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="dc_rc_descricao", outputCol="dc_rc_descricao_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="dc_rc_cod_item", outputCol="dc_rc_cod_item_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="cid", outputCol="cid_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="tipo_guia", outputCol="tipo_guia_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="carater_atendimento", outputCol="carater_atendimento_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="tipo_atendimento", outputCol="tipo_atendimento_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="tipo_item", outputCol="tipo_item_Index") model = stringIndexer.fit(df) indexed = model.transform(df) stringIndexer = StringIndexer(inputCol="servico", outputCol="servico_Index") model = stringIndexer.fit(df) indexed = model.transform(df)  encoder = OneHotEncoder(inputCol="registro_ans_Index", outputCol="registro_ans_Index_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="ref_codigo_Index", outputCol="ref_codigo_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="dc_rc_servico_Index", outputCol="dc_rc_servico_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="dc_atr_ori_servico_Index", outputCol="dc_atr_ori_servico_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="dc_rc_descricao_Index", outputCol="dc_rc_descricao_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="dc_rc_cod_item_Index", outputCol="dc_rc_cod_item_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="cid_Index", outputCol="cid_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="tipo_guia_Index", outputCol="tipo_guia_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="carater_atendimento_Index", outputCol="carater_atendimento_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="tipo_atendimento_Index", outputCol="tipo_atendimento_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="tipo_item_Index", outputCol="tipo_item_Vec") encoded = encoder.transform(indexed) encoder = OneHotEncoder(inputCol="servico_Index", outputCol="servico_Vec") encoded = encoder.transform(indexed)   encoded.show()

Unir colunas do Excel e comparar variáveis

Olá, eu tenho duas planilhas no Excel: a primeira contém dados das variáveis que estou estudando para todas as espécies:

Sp  Var1    Var2    Var3 Sp1 Dado1   Dado11  Dado21 Sp2 Dado2   Dado12  Dado22 Sp3 Dado3   Dado13  Dado23 Sp4 Dado4   Dado14  Dado24 Sp5 Dado5   Dado15  Dado25 Sp6 Dado6   Dado16  Dado26 Sp7 Dado7   Dado17  Dado27 Sp8 Dado8   Dado18  Dado28 Sp9 Dado9   Dado19  Dado29 Sp10    Dado10  Dado20  Dado30 

A segunda contém dados de uma só variável para algumas dessas mesmas espécies:

Sp  Hábitat_Artificial Sp1 1 Sp2 1 Sp5 1 Sp7 1 Sp9 1 

O que eu realmente quero é unir as duas planilhas dessa forma daqui:

Sp  Hábitat_Artificial  Var1    Var2    Var3 Sp1 1   Dado1   Dado11  Dado21 Sp2 1   Dado2   Dado12  Dado22 Sp3 0   Dado3   Dado13  Dado23 Sp4 0   Dado4   Dado14  Dado24 Sp5 1   Dado5   Dado15  Dado25 Sp6 0   Dado6   Dado16  Dado26 Sp7 1   Dado7   Dado17  Dado27 Sp8 0   Dado8   Dado18  Dado28 Sp9 1   Dado9   Dado19  Dado29 Sp10    0   Dado10  Dado20  Dado30 

Assim, aquelas espécies da planilha original que não estão na segunda planilha ficariam com valor igual a 0 na variável nova. Alguém sabe como fazer isso no Excel ou no R?

ACCDB + PHP pegar nome das colunas e tabela

Vou subir arquivos accdb no banco de dados para fazer uma importação de clientes em meu sistema, em um CRM que usava eu conseguia subir esse arquivo e automaticamente já mostrava as colunas para poder estar vinculando com as informações do CRM. Cheguei a conseguir ler os dados do arquivo accdb pelo php e até subir, o que eu precisava é encontrar a tabela que tem dentro desse arquivo e os nome das colunas para poder linkar com os campos necessário, atualmente se eu souber o nome da tabela eu até consigo imprimir na tela os dados do arquivo porem se for um usuario subindo o select já não funcionaria, e consigo dar um select no nome das colunas da tabela?

        $  pdo = new PDO("odbc:DRIVER={Microsoft Access Driver (*.mdb, *.accdb)}; DBQ=$  db; Uid=; Pwd=;");          $  sql = $  pdo->prepare("select * from macica");         $  sql->execute();          while ($  linha = $  sql->fetch(PDO::FETCH_ASSOC)) {              print_r($  linha);          } 

?>