آیا می تواند درمان ها را در مراقبت های بهداشتی بهبود بخشد؟


دانشمندان کامپیوتر داده‌های پر سر و صدا می‌سازند: آیا می‌تواند درمان‌ها را در مراقبت‌های بهداشتی بهبود بخشد؟

درختان دودویی برای دنباله ای به طول T = 7. در شکل 1(b) هر برگ با bin(t-1) برچسب گذاری شده است، و نشان می دهد که چگونه جمع پیشوند تا t = 6 را می توان از bin

محققان دانشگاه کپنهاگ نرم‌افزاری توسعه داده‌اند که می‌تواند داده‌های حساسی مانند داده‌های مورد استفاده برای یادگیری ماشین در برنامه‌های مراقبت‌های بهداشتی را پنهان کند. این روش از حریم خصوصی محافظت می کند در حالی که مجموعه داده ها را برای توسعه درمان های بهتر در دسترس قرار می دهد.

یک عنصر کلیدی در مراقبت های بهداشتی مدرن، جمع آوری و تجزیه و تحلیل داده ها برای گروه بزرگی از بیماران برای کشف الگوها است. کدام بیماران از یک درمان معین سود می برند؟ و کدام بیماران احتمال دارد عوارض جانبی را تجربه کنند؟

چنین داده هایی باید محافظت شوند، در غیر این صورت حریم خصوصی افراد شکسته می شود. علاوه بر این، نقض به اعتماد عمومی آسیب می رساند و منجر به رضایت افراد کمتری برای مشارکت می شود. محققان دپارتمان علوم کامپیوتر دانشگاه کپنهاگ راه حلی هوشمندانه یافته اند.

ما موارد متعددی را دیده‌ایم که در آن داده‌ها ناشناس بوده و سپس در اختیار عموم قرار گرفته‌اند، و با این حال محققان موفق به بازیابی هویت شرکت‌کنندگان شده‌اند. از آنجایی که بسیاری از منابع اطلاعاتی دیگر در مالکیت عمومی وجود دارد، دشمنی با یک کامپیوتر خوب اغلب می‌شود قادر به کسر هویت حتی بدون نام و کد شهروندی است.”

دکتر Ph.D می گوید: «ما یک روش عملی و اقتصادی برای محافظت از مجموعه داده ها در هنگام استفاده برای آموزش مدل های یادگیری ماشین ایجاد کرده ایم. دانش آموز جوئل دانیل اندرسون

میزان علاقه به الگوریتم جدید را می توان با این واقعیت نشان داد که جوئل برای ارائه یک گفتگوی فناوری گوگل در مورد آن دعوت شد. همچنین، او اخیراً در کنفرانس NeurIPS در مورد یادگیری ماشین سخنرانی کرد.

به طور عمدی خروجی شما را آلوده می کند

ایده اصلی این است که مجموعه داده خود را با افزودن “نویز” به هر خروجی حاصل از آن پنهان کنید. برخلاف رمزگذاری که نویز اضافه می شود و بعداً حذف می شود، در این حالت نویز باقی می ماند. هنگامی که نویز اضافه می شود، نمی توان آن را از خروجی “واقعی” تشخیص داد.

بدیهی است که صاحب یک مجموعه داده نباید از نویز کردن خروجی های حاصل از آن خوشحال باشد.

جوئل دانیل اندرسون می‌گوید: «کاربرد پایین‌تر مجموعه داده، هزینه‌ای است که برای تضمین حریم خصوصی شرکت‌کنندگان می‌پردازید.

او خاطرنشان می کند که وظیفه کلیدی اضافه کردن مقدار نویز کافی برای پنهان کردن نقاط داده اصلی است، اما همچنان ارزش بنیادی مجموعه داده را حفظ می کند:

“اگر خروجی به اندازه کافی نویز داشته باشد، استنباط مقدار یک نقطه داده در ورودی غیرممکن می شود، حتی اگر هر نقطه داده دیگری را بشناسید. با نویز کردن خروجی، ما در واقع ریل های ایمنی را به تعامل بین اضافه می کنیم. تحلیلگر و مجموعه داده.”

“تحلیلگران هرگز به داده های خام دسترسی ندارند، آنها فقط سوالاتی در مورد آن می پرسند و پاسخ های پر سر و صدا دریافت می کنند. بنابراین، آنها هرگز هیچ اطلاعاتی در مورد افراد در مجموعه داده نمی آموزند. این امر از درز اطلاعات، سهوی یا غیر عمدی، ناشی از تجزیه و تحلیل داده ها محافظت می کند. “

حریم خصوصی با یک برچسب قیمت همراه است

هیچ مبادله بهینه جهانی وجود ندارد. جوئل دانیل اندرسون می‌گوید، “شما می‌توانید مبادله‌ای را انتخاب کنید که متناسب با هدف شما باشد. برای برنامه‌هایی که حفظ حریم خصوصی بسیار مهم است – به عنوان مثال، داده‌های مراقبت‌های بهداشتی – می‌توانید سطح بسیار بالایی از حریم خصوصی را انتخاب کنید. این به معنای اضافه کردن مقدار زیادی از سر و صدا.”

“به ویژه، این گاهی اوقات به این معنی است که شما باید تعداد نقاط داده خود را افزایش دهید – به عنوان مثال، افراد بیشتری را در نظرسنجی خود بگنجانید – تا ارزش مجموعه داده خود را حفظ کنید. در برنامه هایی که حفظ حریم خصوصی اهمیت کمتری دارد، می توانید یک مورد را انتخاب کنید. به این ترتیب، کاربرد مجموعه داده خود را حفظ خواهید کرد و هزینه های مربوط به تامین حریم خصوصی را کاهش خواهید داد.”

او اضافه می‌کند که کاهش هزینه‌ها دقیقاً اصلی‌ترین استدلال پشت روش توسعه‌یافته توسط گروه تحقیقاتی است. “مهم این است که برای دستیابی به سطح مشخصی از حریم خصوصی، چه مقدار نویز باید اضافه کنید، و اینجاست که مکانیسم صاف ما نسبت به روش های موجود بهبود می بخشد. ما موفق می شویم نویز کمتری اضافه کنیم و این کار را با منابع محاسباتی کمتر انجام می دهیم. به طور خلاصه، ما کاهش هزینه های مرتبط با تامین حریم خصوصی.”

علاقه از صنعت

یادگیری ماشینی شامل مجموعه داده های بزرگی است. به عنوان مثال، در بسیاری از رشته های مراقبت های بهداشتی، یک کامپیوتر می تواند الگوهایی را پیدا کند که متخصصان انسانی نمی توانند آن ها را ببینند. همه اینها با آموزش رایانه بر روی مجموعه داده با موارد واقعی بیمار شروع می شود. چنین مجموعه های آموزشی باید محافظت شوند.

“بسیاری از رشته ها به طور فزاینده ای به یادگیری ماشین وابسته هستند. علاوه بر این، ما شاهد گسترش یادگیری ماشینی فراتر از حرفه ای ها مانند پزشکان به برنامه های خصوصی مختلف هستیم. این پیشرفت ها فرصت های جدیدی را ایجاد می کند، اما همچنین نیاز به محافظت از حریم خصوصی شرکت کنندگانی را که این سیستم را ارائه می دهند افزایش می دهد. داده‌های اصلی، “جوئل دانیل اندرسون توضیح می‌دهد که علاقه به نرم‌افزار جدید گروه‌ها صرفا علمی نیست.

علاوه بر بخش مراقبت‌های بهداشتی به‌علاوه گوگل و سایر شرکت‌های فناوری بزرگ، صنایعی مانند مشاوران، شرکت‌های حسابرسی و شرکت‌های حقوقی باید بتوانند از حریم خصوصی مشتریان و شرکت‌کنندگان در نظرسنجی‌ها محافظت کنند.»

مقررات عمومی فراخوانده شده است

این زمینه به عنوان حریم خصوصی دیفرانسیل شناخته می شود. این اصطلاح از تضمین حریم خصوصی برای مجموعه داده‌هایی که در یک نقطه داده متفاوت هستند مشتق شده است: خروجی براساس دو مجموعه داده که فقط در یک نقطه داده متفاوت هستند مشابه به نظر می‌رسد. این امر باعث می شود که تحلیلگر نتواند یک نقطه داده واحد را شناسایی کند.

این گروه تحقیقاتی از نهادهای عمومی حمایت می کند که علاقه بیشتری به این زمینه داشته باشند.

“از آنجایی که حفاظت از حریم خصوصی بهتر با قیمت بالاتر به دلیل از دست دادن ابزار مفید همراه است، به راحتی به رقابتی برای فعالان بازار تبدیل می شود. مقررات باید وجود داشته باشد و بیان کند که یک برنامه حساس خاص به حداقل سطح خاصی از حریم خصوصی نیاز دارد. این زیبایی واقعی حریم خصوصی دیفرانسیل است.”

جوئل دانیل اندرسون می‌گوید: «شما می‌توانید سطح حریم خصوصی مورد نیاز خود را انتخاب کنید، و چارچوب دقیقاً به شما می‌گوید که برای رسیدن به آن سطح به چه میزان سر و صدایی نیاز دارید». او امیدوار است که حریم خصوصی متمایز ممکن است به تسهیل استفاده از یادگیری ماشین کمک کند.

“اگر دوباره نظرسنجی‌های پزشکی را به عنوان مثال در نظر بگیریم، آنها از بیماران می‌خواهند که رضایت خود را برای شرکت در آن اعلام کنند. به دلایل مختلف، شما همیشه برخی از بیماران را از دادن رضایت امتناع می‌کنند یا فراموش می‌کنند که منجر به کاهش ارزش مجموعه داده می‌شود. از آنجایی که می توان تضمین احتمالی قوی مبنی بر عدم نقض حریم خصوصی شرکت کنندگان ارائه داد، عدم نیاز به رضایت و دستیابی به مشارکت 100 درصدی به نفع تحقیقات پزشکی می تواند از نظر اخلاقی قابل دفاع باشد.

“اگر افزایش مشارکت به اندازه کافی بزرگ باشد، از دست دادن سودمندی ناشی از ارائه حریم خصوصی می تواند با افزایش سودمندی از داده های اضافی جبران شود. به این ترتیب، حریم خصوصی متفاوت می تواند به یک برد برد برای جامعه تبدیل شود.”

کار است منتشر شده بر روی arXiv سرور پیش چاپ

اطلاعات بیشتر:
جوئل دانیل اندرسون و همکاران، مکانیزم دوتایی صاف برای مشاهده مستمر خصوصی کارآمد، arXiv (2023). DOI: 10.48550/arxiv.2306.09666

اطلاعات مجله:
arXiv


ارائه شده توسط دانشگاه کپنهاگ


نقل قول: دانشمندان کامپیوتر داده های پر سر و صدا می کنند: آیا می تواند درمان ها را در مراقبت های بهداشتی بهبود بخشد؟ (2024، 16 ژانویه) در 16 ژانویه 2024 از

این برگه یا سند یا نوشته تحت پوشش قانون کپی رایت است. به غیر از هرگونه معامله منصفانه به منظور مطالعه یا تحقیق خصوصی، هیچ بخشی بدون اجازه کتبی قابل تکثیر نیست. محتوای مذکور فقط به هدف اطلاع رسانی ایجاد شده است.





منبع

بخوان  مغز ما چه میزان مصرف می کند؟