IA nas mãos de usuários imperfeitos - Assistente de soldagem Jinan Co., Ltd

npj Digital Medicine volume 5, número do artigo: 197 (2022) Citar este artigo

6671 Acessos

7 citações

36 Altmétrico

Detalhes das métricas

À medida que a utilização da inteligência artificial e da aprendizagem automática (IA/ML) continua a expandir-se nos cuidados de saúde, tem sido dada muita atenção à mitigação de preconceitos nos algoritmos para garantir que são utilizados de forma justa e transparente. Menos atenção tem sido dada à abordagem de potenciais preconceitos entre os usuários humanos de IA/ML ou fatores que influenciam a confiança do usuário. Defendemos uma abordagem sistemática para identificar a existência e os impactos dos preconceitos dos usuários ao usar ferramentas de IA/ML e apelamos ao desenvolvimento de recursos de design de interface incorporados, com base em insights da ciência da decisão e da economia comportamental, para estimular os usuários a se tornarem mais críticos e reflexivos. tomada de decisão usando IA/ML.

O uso de inteligência artificial e aprendizado de máquina (IA/ML) continua a se expandir na área da saúde, com grande promessa de melhorar a tomada de decisões clínicas personalizadas1. À medida que as ferramentas de IA/ML se tornam mais difundidas, muita atenção tem sido dada à mitigação de preconceitos nos algoritmos para garantir que sejam empregados de forma justa e transparente. No entanto, menos atenção tem sido dada à mitigação de potenciais preconceitos entre os utilizadores humanos da IA. À medida que os sistemas automatizados se tornam mais sofisticados na sua capacidade de prever, rastrear ou diagnosticar doenças, aumentará a tentação de confiar neles na tomada de decisões clínicas2. No entanto, os factores que influenciam a confiança dos utilizadores na IA são pouco compreendidos e os profissionais de saúde carecem de orientações sobre o papel que a IA deve desempenhar na sua tomada de decisões. Defendemos uma abordagem mais sistemática para identificar a existência e os impactos dos preconceitos dos utilizadores durante a utilização de ferramentas de IA e os seus efeitos na tomada de decisões clínicas e nos resultados dos pacientes. Especificamente, apelamos a uma maior investigação empírica sobre como mitigar preconceitos com resultados negativos previstos através da utilização de funcionalidades de design de interface incorporadas, com base em conhecimentos da ciência da decisão e da economia comportamental, para estimular os utilizadores a tomarem decisões mais críticas e reflexivas utilizando ferramentas de IA.

Reconhecendo os potenciais danos da dependência excessiva dos sistemas de IA no contexto da tomada de decisões de alto risco, os reguladores e os decisores políticos parecem apoiar a manutenção dos seres humanos “informados” e centram os seus planos de acção e recomendações na melhoria da segurança dos sistemas de IA/ML, como através de maior precisão computacional3,4,5. Enquanto isso, os desenvolvedores estão inovando em novas maneiras de abordar a confiabilidade, a responsabilidade e a explicabilidade da IA/ML de “caixa preta” que envolve aprendizagem profunda ou redes neurais com limitações significativas de interpretabilidade6,7. Estes objectivos parecem ser particularmente importantes quando se utiliza IA/ML na tomada de decisões clínicas, não só porque os custos de classificações erradas e potenciais danos para os pacientes são elevados, mas também porque o cepticismo indevido ou a falta de confiança podem reduzir a adopção pelas partes interessadas de novas tecnologias promissoras de IA. e inibir seu uso e disponibilidade fora de ambientes experimentais.

Um de nós (SG em Babic et al.8), no entanto, alertou recentemente os profissionais de saúde para serem cautelosos com as explicações que lhes são apresentadas para modelos de IA/ML de caixa preta.

AI/ML explicável… oferece lógicas post hoc geradas por algoritmos de previsões de caixa preta, que não são necessariamente as razões reais por trás dessas previsões ou relacionadas causalmente a elas. Assim, a aparente vantagem da explicabilidade é um “ouro de tolo” porque é pouco provável que racionalizações post hoc de uma caixa negra contribuam para a nossa compreensão do seu funcionamento interno. Em vez disso, provavelmente ficamos com a falsa impressão de que entendemos melhor.”

Consequentemente, em vez de se concentrarem na explicabilidade como uma condição estrita para a IA/ML nos cuidados de saúde, os reguladores como a Food and Drug Administration (FDA) dos EUA deveriam concentrar-se de forma mais holística nos aspectos dos sistemas de IA/ML que se relacionam directamente com a sua segurança e eficácia — especialmente, como esses sistemas funcionam nas mãos dos usuários pretendidos. Embora a FDA tenha publicado recentemente sua orientação final reconhecendo explicitamente os riscos de viés de automação9 e esteja trabalhando em uma nova estrutura regulatória para modificações em software baseado em IA/ML como um dispositivo médico (ou seja, software que é classificado como um dispositivo médico na seção 201(h)(1) da Lei Federal de Alimentos, Medicamentos e Cosméticos dos EUA10), Babic et al. argumentam que reguladores como a FDA também deveriam, pelo menos em alguns casos, enfatizar ensaios clínicos bem concebidos para testar factores humanos e outros resultados da utilização da IA em ambientes do mundo real. Gerke et al.11,12 argumentam de forma semelhante que mais ferramentas algorítmicas devem ser testadas prospectivamente para compreender seu desempenho em uma variedade de contextos procedimentais que refletem as configurações de uso pretendidas e as interações humano-IA. O tipo de teste de usuário que esses estudiosos sugerem vai além dos testes típicos de usabilidade e aceitabilidade que caracterizam o pipeline desde a versão beta até uma versão mais finalizada de uma ferramenta de IA. Esse tipo de teste é geralmente feito de forma heuristica13, utilizando um pequeno conjunto de avaliadores para examinar a interface e julgar sua conformidade com princípios de usabilidade relevantes (por exemplo, interpretabilidade, utilidade percebida, navegabilidade, satisfação com o uso, etc.). Embora essas métricas sejam frequentemente úteis para avaliar experiências próximas do usuário (ou seja, testes de “UX”) com a interface de uma ferramenta, é necessário um nível mais profundo de testes de usuário14 para ajudar a identificar e abordar possíveis fontes de viés “emergente” ou “contextual”15 que surgem devido a incompatibilidades entre o design de um produto e as características de seus usuários, casos de uso ou configurações de uso. Estas incompatibilidades podem ser mais difíceis de prever e de contabilizar no caso das ferramentas de IA do que no caso dos dispositivos médicos ou produtos farmacêuticos tradicionais, cujo desempenho depende menos das interações e interpretações dos utilizadores12, ou cujos algoritmos adaptativos mudam continuamente16. A mitigação destas incompatibilidades só pode ser alcançada ampliando a nossa noção de testes de utilizadores para além do seu foco atual nas métricas de desempenho da IA e na usabilidade imediata para examinar os fatores humanos e sistémicos que moldam a forma como os sistemas de IA são aplicados na prática17,18 por utilizadores imperfeitos em ambientes imperfeitos. Além disso, os testes não têm de se limitar à simples observação de como os indivíduos em vários contextos interagem com as ferramentas de IA; também podemos testar a melhor forma de moldar essas interações usando os conhecimentos existentes das ciências comportamentais, como discutiremos abaixo.