人工智能醫療器械常用術語
人工智能 artificial intelligence(AI):表現出與人類智能(如推理和學習)相關各種功能的功能單元的能力,以上由慧銘佳UDI整理。
人工智能醫療器械 artificial intelligence medical device(AIMD):采用AI技術實現其預期用途的醫療器械。
注1:如采用機器學習、模式識別、規則推理等技術實現其醫療用途的獨立軟件。
注2:如采用內嵌AI算法、AI芯片實現其醫療用途的醫療器械。
機器學習 machine learning:功能單元通過獲取新知識或技能,或通過整理已有的知識或技能來改進其性能的過程。
注:也可稱為自動學習。
深度學習 deep learning :通過訓練具有多個隱層的神經網絡來獲得輸入輸出間映射關系的機器學習方法,以上由慧銘佳UDI整理。
訓練 training:基于機器學習算法,利用訓練數據,建立或改進機器學習模型參數的過程,以上由慧銘佳UDI整理。
監督學習 supervised learning:一種學習策略,獲得的知識的正確性通過來自外部知識源的反饋加以測試的學習策略,以上由慧銘佳UDI整理。
注:也可稱為監督式學習。
無監督學習 unsupervised learning:一種學習策略,它在于觀察并分析不同的實體以及確定某些子集能分組到一定的類別里,而無需在獲得的知識上通過來自外部知識源的反饋,以實現任何正確性測試,以上由慧銘佳UDI整理。
注1:一旦形成概念,就對它給出名稱,該名稱就可以用于其他概念的后續學習了;
注2:也可稱為無師(式)學習。
強化學習 reinforcement learning:一種學習策略,它強調從環境狀態到動作映射的過程,目標是使動作從環境中獲得的累積獎賞值最大。
集成學習 ensemble learning:通過結合多個學習器來解決問題的一種機器學習范式。
注:其常見形式是利用一個基學習算法從訓練集產生多個基學習器,然后通過投票等機制將基學習器進行結合
以上由慧銘佳UDI整理。
遷移學習 transfer learning
利用一個學習領域A上有關學習問題T(A)的知識,改進學習領域B上相關學習問題T(B)的學習算法的性能
以上由慧銘佳UDI整理。
過擬合 overfitting:學習器對訓練樣本過度學習,導致訓練樣本中不具有普遍性的模式被學習器當作一般規律,降低了泛化性能;典型表現是訓練集上的性能越高,測試集上的性能越低。
欠擬合 underfitting:學習器對訓練樣本學習不充分,導致訓練樣本中包含的重要模式沒有被學習器獲取,降低了泛化性能;典型表現是訓練集上的性能可以繼續提高,測試集上的性能同時得以提高。
人工智能醫療器械生存周期模型 AIMD lifecycle model:人工智能醫療器械從起始到退役的整個演進過程的框架。
注1:包括:需求分析,設計與開發,驗證與確認,部署,運維與監控,再評價直至停運。
注2:在人工智能醫療器械生存周期中,某些活動可出現在不同的過程中,個別過程可重復出現。例如為了修復系統的隱錯和更新系統,需要反復實施開發過程和部署過程。
數據 data:信息的可再解釋的形式化表示,以適用于通信、解釋或處理。
注:可以通過人工或自動手段處理數據。
個人敏感數據 personal sensitive data: 一旦泄露、非法提供或濫用可能危害人身和財產安全,極易導致個人名譽、身心健康受到損害或歧視性待遇等的個人信息。
注:個人敏感信息包括身份證件號碼、個人生物識別信息、銀行賬號、通信記錄和內容、財產信息、征信信息、行蹤軌跡、住宿信息、健康生理信息、交易信息、14歲以下(含)兒童的個人信息等,以上由慧銘佳UDI整理。
健康數據 health data:與身體或心理健康相關的個人敏感數據。
注:由于目前全球規定了不同的隱私合規性法律和法規。例如,在歐洲,可能需要采取的要求和參考變更為“個人數據”和“敏感數據”,在美國,健康數據可能會變更為“受保護的健康信息(PHI)”,這需要不同國家或地區的制造商進一步考慮中國當地的法律或法規。

數據集 data set:具有一定主題,可以標識并可以被計算機化處理的數據集合。
訓練集 training set:用于訓練人工智能算法的數據集,其外部知識源可用于算法參數的計算。
調優集 tuning set:用于優化人工智能算法的數據集,其外部知識源可用于算法超參數的選擇。
注:為避免與醫療器械領域所用術語“確認”進行區分,這里不使用通用人工智能領域的validation set,二者含義一致。
測試集 testing set:
用于測試人工智能算法性能的數據集,其外部知識源可用于對算法的評估。
參考標準 reference standard:篩查、診斷和治療過程或基于標注過程建立的基準。
注:參考標準可包含疾病、生理狀態或生理異常以及位置和程度等信息標簽。
金標準 gold standard:篩查、診斷和治療可依據的最佳參考標準。
數據清洗 data cleaning:檢測和修正數據集合中錯誤數據項的預處理過程。
數據采集 data acquisition:數據由生成裝置按照數據采集規范生成,以數字化格式存儲并傳輸到目標系統的過程。
數據脫敏 data masking:通過去標識化或匿名化,實現對個人敏感信息的可靠保護。
數據標注 data annotation:對數據進行分析,添加外部知識的過程。
仲裁 arbitration:多名標注人員對同一原始數據的標注結果不一致時用于決定最終結果的過程。
軟件質量 software quality:在規定條件下使用時,軟件產品滿足明確或隱含要求的能力,以上由慧銘佳UDI整理。
軟件質量保證 software quality assurance:
a)為使某項目或產品遵循已建立的技術需求提供足夠的置信度,而必須采取的有計劃的和有系統的全部動作的模式。
b)設計以估算產品開發或制造過程的一組活動。
可靠性 reliability:在規定時間間隔內和規定條件下,系統或部件執行所要求功能的能力。
完整性 integrity:保護數據準確性和完備性的性質。
一致性 consistency:在數據集的各階段、部分之間,一致、標準化、無矛盾的程度。
重復性 repeatability: 由同一操作員按相同的方法、使用相同的測試或測量設施、在短時間間隔內對同一測試/測量對象進行測試/測量,所獲得的獨立測試/測量結果間的一致程度。
再現性 reproducibility:由不同的操作員按相同的方法,使用不同的測試或測量設施,對同一測試/測量對象進行觀測以獲得獨立測試/測量結果,所獲得的獨立測試/測量結果間的一致程度。
可達性 accessibility:組成軟件的各部分便于選擇使用或維護的程度。
可得性 availability:
a)軟件(系統或部件)在投入使用時可操作或可訪問的程度或能實現其制定系統功能的概率;
b)系統正常工作時間和總的運行時間之比;
c)在運行時,某一配置項實現指定功能的能力。
保密性 confidentiality:數據對未授權的個人、實體或過程不可用或不泄露的特性。
網絡安全 cybersecurity:通過采取必要措施,防范對數據、模型等攻擊、侵入、干擾、破壞和非法使用以及意外事故,使設備處于穩定可靠運行的狀態,以及保障數據、模型等的完整性、保密性、可得性的能力,以上由慧銘佳UDI整理。
安全性 safety:免除于不可接受的風險。
魯棒性/穩健性:在存在無效輸入或急迫的環境條件下,系統或部件其功能正確的程度。
泛化能力 generalizability:機器學習算法對陌生樣本的適應能力。
可追溯性 traceability:系統對其決策過程及輸出進行記錄的特性。
公平性 fairness:系統做出不涉及喜好和偏袒決策的性質。
可解釋性 explainability:以人能理解的方式,對系統決策因素進行說明的能力。
黑盒測試 black-box testing:忽略系統或部件的內部機制只集中于響應所選擇的輸入和執行條件產生的輸出的一種測試。
白盒測試 glass-box testing:側重于系統或部件內部機制的測試。類型包括分支測試、路徑測試、語句測試等。
對抗[措施] countermeasure:為減小脆弱性而采用的行動、裝置、過程、技術或其他措施。
對抗樣本 adversarial sample:基于原始數據上添加擾動達到混淆系統判別目的新樣本。
對抗測試 adversarial test:使用對抗性樣本開展的測試,或采用不同目標樣本分布的特選數據作為壓力數據集進行的測試。
陽性樣本 positive sample:由參考標準確定為帶有某一種或幾種特定特征的樣本。
陰性樣本 negative sample:除陽性樣本以外的樣本。
真陽性 true positive(TP):被算法判為陽性的陽性樣本。
假陽性 false positive(FP):被算法判為陽性的陰性樣本。
真陰性 true negative(TN):被算法判為陰性的陰性樣本。
假陰性 false negative(FN):被算法判為陰性的陽性樣本。
目標區域 target region:在影像評價中,根據參考標準從原始數據中劃分出的若干個包含特定類別目標的最小數據子集(子集元素為像素,體素等)。
分割區域 segmentation region:在影像評價中,從原始數據中劃分出的若干個包含特定類別目標的最小數據子集(子集元素為像素,體素等),以上由慧銘佳UDI整理。
病變定位 lesion localization:算法檢出病變位置正確標識出參考標準確定的病變位置。
非病變定位 non-lesion localization:算法檢出病變位置未能正確標識出參考標準確定的病變所在位置。
病變定位率 lesion localization rate:病變定位數量占由參考標準確定的全體病變數量的比例。
非病變定位率 non-lesion localization rate:非病變定位數量占全體病例數量的比例,非病變定位率可以大于1。
假陽性率 false positive rate:假陽性病例數量(陰性病例中包含非病變定位)占全部陰性病例數量的比例。
靈敏度 sensitivity
召回率(查全率)recall:真陽性樣本占全體陽性樣本的比例。
特異度 specificity:真陰性樣本占全體陰性樣本的比例。
漏檢率 miss rate:1減去靈敏度。
精確度(查準率) precision
陽性預測值 positive prediction value:真陽性樣本占被算法判為陽性樣本的比例。
陰性預測值 negative prediction value:真陰性樣本占被算法判為陰性樣本的比例。
準確率 accuracy:算法判斷正確的樣本占全體樣本的比例。
F1度量 F1-measure:召回率和精確度的調和平均數。
約登指數 Youden index:靈敏度與特異度之和減去1。
受試者操作特征曲線 receiver operating characteristics curve(ROC curve):以假陽性率為橫坐標、真陽性率為縱坐標,根據算法在不同閾值設定下對于給定的測試集得到的一系列結果繪制的曲線。
曲線下面積 area under curve(AUC):曲線下與坐標軸圍成的積分面積。
自由響應受試者操作特征曲線 free-response receiver operating characteristics curve(fROC):以非病變定位率為橫坐標、病變定位率為縱坐標,根據算法在不同閾值設定下對于給定的測試集得到的一系列結果繪制的曲線。
候選自由受試者操作特征曲線 alternative free receiver operating characteristics curve(AFROC curve):以假陽性率為橫坐標、病變定位率為縱坐標,根據算法在不同閾值設定下對于給定的測試集得到的一系列結果繪制的曲線。
精確度-召回率曲線 precision-recall curve(P-R):以召回率為橫坐標、精確度為縱坐標,根據算法在不同閾值設定下對于給定的測試集得到的一系列結果繪制的曲線。
平均精確度 average precision(AP):精確度-召回率曲線下與坐標軸圍成的積分面積。
平均精確度均值 mean average precision(MAP):在多目標檢測問題上,算法對于各類目標的平均精確度的平均值。
交并比 intersection over union(IoU):分割區域與目標區域的交集占分割區域與目標區域并集的比例
注:也可稱為Jaccard系數。
Dice系數 Dice coefficient:分割區域與目標區域的交集占分割區域與目標區域平均值的比例。
中心點距離 central distance:分割區域中心與目標區域中心的距離,該指標反映兩個集合的接近程度。
混淆矩陣 confusion matrix:一種矩陣,它按一組規則記錄試探性實例的正確分類和不正確分類的個數。
注1:通常矩陣的列代表人工智能的分類結果,而矩陣的行代表參考標準的分類結果;
注2:也可稱為含混矩陣。
Kappa系數 Kappa coefficient:一種用于評價結果一致性的指標。
信噪比 signal-to-noise ratio(SNR):信號平均功率水平與噪聲平均功率水平的比值。
峰值信噪比 peak signal-to-noise ratio::信號最大可能功率與噪聲平均功率水平的比值。
結構相似性 structural similarity:是一種衡量兩幅圖像相似度的指標。
余弦相似度 cosine similarity:通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。
困惑度 perplexity:度量概率分布或概率模型的預測結果與樣本的契合程度,困惑度越低則契合越準確,以上由慧銘佳UDI整理。
字錯率 word error rate:將識別出來的字需要進行修改的字數與總字數的比值。
交叉熵 cross-entropy:一種度量兩個概率分布之間差異的指標。
互信息 mutual information:對兩個隨機變量間相互依賴性的量度。
服務可用性 service availability:服務客戶發起服務請求后,服務可訪問的時間占總服務時間的比例。
注:服務可用性的計算是在一系列預定義的時間段中,服務可用時間之和占預定義時間段之和的比例,可排除允許的服務不可用時間。