總機:025-58361106-801
傳真:025-58361107-806
Email:info@njpeptide.com
地址:南京市化學工業園區方水路158號三樓
DOI: 10.16155/j.0254-1793.2017.01.01
, , ,
摘要:目的:研究并建立徑向基函數神經網絡預測化合物色譜峰HPLC保留時間的方法。方法:使用Agilent TC-C18色譜柱(250 mm×4.6 mm,5μm),甲醇-水為流動相等度洗脫,以毛蕊異黃酮葡萄糖苷、芒柄花素、山柰苷、山柰素、槲皮素、刺芒柄花苷、毛蕊異黃酮及異鼠李素8個化合物為研究對象,不同比例流動相洗脫條件下其中7個化合物色譜峰保留時間為特征,與待預測化合物色譜峰保留時間組成訓練集各樣本,生成并訓練神經網絡,使得該神經網絡具有通過以上7個化合物色譜峰保留時間預測待預測化合物色譜峰保留時間的能力。結果:在使用同一型號色譜柱不同HPLC儀器的情況下,模型的保留時間預測誤差不大于0.608 min。結論:本研究創建的方法能夠對化合物保留時間進行有效和準確地預測。
在液相色譜分析中,對比色譜峰的保留時間(retention time,RT)是非常重要的定性手段。一般情況下,不同的化合物在相同的HPLC洗脫系統中的色譜峰往往具有不同RT,而同一化合物在不同的HPLC洗脫系統中的色譜峰RT一般也不相同,因此常常需要使用對照物質(對照品或對照提取物)來確定待分析化合物的色譜峰在HPLC系統中的RT。然而,隨著中藥質量標準的不斷發展,以及多組分和整體模式評價方法的日益增多,對照物質的制備、標定、儲存等環節都面臨著挑戰[1],對照物質在檢測成本中的比重也越來越大。為了解決這一問題,一些化合物色譜峰RT預測及確定的方法應運而生,主要有相對保留時間法[2]、雙標線性校正法[3]和定量結構性質關系(quantitative structure property relationship,QSPR)法[4-6]等。本文利用機器學習中徑向基函數神經網絡(radial basis function neural network,RBFNN)的方法,對化合物色譜峰的RT進行預測研究,在建模和預測過程中,創新地加入了猶如“探針”般探測表征色譜洗脫條件的其他幾個化合物,能夠準確地預測多個化合物在不同等度洗脫條件下的RT。
1 原理機器學習領域的前驅Arthur Samuel將機器學習歸結為研究賦予計算機學習能力而并非直接編寫程序的領域。而Tom Mitchell在《Machine Learning》一書中,對機器學習進行了更加詳細地描述:計算機程序在完成以性能度量P衡量的目標T過程中,如果在經驗E的影響下,對P衡量的T結果有所改進,那么該程序就是依據E在學習[7]。圖 1展示了機器學習的一個整體過程,一般來說,首先需要將已有的數據放入訓練集(training set,TS),然后通過某些算法來實現計算機對TS的學習。在學習過程中,計算機需要不斷調整算法參數,以達到預測結果距離目標值最接近。機器學習的結果可達到相對最優的算法參數,作為假想(hypothesis)以實現根據對未知樣品的特征(feature)進行目標的預測判斷。TS如圖 2所示,一般需要包含m個已知樣品,分別用n個特征表示,每個樣品都有相應輸出目標。
![]() |
圖 1 機器學習概況圖Fig.1 General picture of machine learning |
![]() |
圖 2 TS組成Fig.2 Form of TS |
本研究的思路是計算機通過對m個HPLC條件n個化合物色譜峰RT及其對應的待預測化合物色譜峰RT進行學習,獲得相對最優化學習成果,從而實現不同HPLC條件下對該化合物色譜峰RT的預測。與文獻報道的類似方法[4-6]不同,本文創新性地使用了n個其他化合物的色譜峰RT作為HPLC條件的特征放入學習算法的訓練和預測中,這n個化合物與待預測化合物平行進樣,猶如待預測化合物溶液體系外部的“探針”色譜洗脫條件表征,因此稱為外部“探針”。
本文中的機器學習使用的是RBFNN,該網絡是J. Moody和C. Darken于20世紀80年代提出的,是一種含單隱層的3層前饋式網絡(如圖 3),該網絡的原理及相關實驗均表明,通過基函數的運用,其可以任意精度逼近任意函數,還可以辨識非線性系統[8]。RBFNN的3層分別為輸入層、隱藏層和輸出層,其中隱藏層中使用了非線性函數,對輸入層信息進行非線性轉換至多維隱藏空間中[9],隱藏層中的基函數最常用的為Gaussian函數。
![]() |
圖 3 RBFNN結構圖Fig.3 RBFNN structure |
本研究具體是在多種等度洗脫條件下獲得8個化合物的RT數據,分別將其中1個化合物RT作為目標輸出,另外7個化合物RT數據作為輸入特征進行模型訓練,然后通過某等度洗脫條件下7個化合物的RT數據便可預測出另外的1個化合物的RT,因此本研究為了對應8個化合物的RT預測,共建立了8個預測模型。
2 方法與結果2.1 儀器與試藥Waters高效液相色譜儀3臺(編號分別為H1、H2、H3),其中H1(購于2008年)為Waters 2695分離模塊,H2(購于2013年)為Waters e2695分離模塊,H1和H2均配有Waters e2998 PDA檢測器,H3(購于2004年)為Waters 2695,分離模塊配以Waters 2996 PDA檢測器。
色譜柱4根(編號分別為C1、C2、C3、C4),均為250 mm×4.6 mm規格,5 μm填料,C1(LN:MP07570002)和C2(LN:MP07570001)均為Agilent TC-C18,C3為Inertsil ODS-3,C4為Phenomenex Luna C18。
毛蕊異黃酮葡萄糖苷(批號111920-201505,純度97.1%)、芒柄花素(批號111703-201504,供含量測定用)、山柰苷(批號111775-200701,供含量測定用)、山柰素(批號110861-201611,純度95.5%)、槲皮素(批號100081-200406,供含量測定用)均來自中國食品藥品檢定研究院。刺芒柄花苷(批號R04J6F2,純度98%)、毛蕊異黃酮(批號P29M6R2,純度98%)及異鼠李素(批號P08J7F15965,純度98%)均來自上海源葉生物科技有限公司。
黃芪(蒙古黃芪,批號120974-201110)、葶藶子(播娘蒿,批號121220-201403)、側柏葉(批號121396-201402)3個對照藥材均來自中國食品藥品檢定研究院。
甲醇為色譜純(Thermo Fisher Scientific公司);水為Millipore超純水。
2.2 溶液的制備2.2.1 對照品溶液取各對照品適量,加甲醇制成每1 mL含0.1 mg的單標對照品溶液。
2.2.2 中藥基質加標溶液分別取黃芪(蒙古黃芪)、葶藶子(播娘蒿)和側柏葉對照藥材粉末各約1 mg,加甲醇5 mL,超聲處理(功率300 W,頻率40 kHz)20 min,放冷,過濾,分別取各藥材濾液0.9 mL。取毛蕊異黃酮、山柰苷和刺芒柄花苷3種對照品溶液各0.1 mL,分別加入以上所取的0.9 mL的黃芪(蒙古黃芪)、葶藶子(播娘蒿)和側柏葉藥材溶液中,搖勻,所得溶液分別以Plus1、Plus2和Plus3表示。
2.3 色譜條件進樣量為5 μL,檢測波長為254 nm,流動相流速均為1.0 mL·min-1。甲醇(A)-水(B)為流動相等度洗脫,A與B兩相的不同比例洗脫,各化合物色譜峰RT數值作為研究的特征值或目標值,使用H1及C1在洗脫條件分別為65%A、62%A、60%A、57%A、55%A、52%A、50%A、47%A、45%A、42%A、40%A、37%A和35%A下測定的對照品色譜峰RT數據組成模型TS;洗脫條件61%A、51%A和44%A下測定的對照品色譜峰RT數據作為模型驗證集(validation set,VS);洗脫條件59%A、49%A、46%A和41%A下測定的對照品色譜峰RT數據作為模型測試集(test set,TeS);為測試模型對中藥基質中化合物色譜峰的RT預測效果,49%A洗脫條件下,對3種中藥基質加標溶液中對照品色譜峰RT測定數據加入模型TeS;為測試模型對同型號不同批次色譜柱和不同HPLC儀器的預測效果,使用H2+C2組合(洗脫條件為60%A、53%A和49%A)、H3+C2組合(洗脫條件為51%A)的對照品RT測定結果數據加入模型TeS;為了測試模型對不同品牌色譜柱的預測能力,在49%A洗脫條件下使用H1+C3組合、H1+C4組合測定的對照品RT數據加入模型TeS。以上模型的TS、VS和TeS詳見表 1。
![]() |
表 1 模型TS、VS和TeSTab.1 TS, VS and TeS |
將TS中的RT數據進行歸一化處理,將各對照品色譜峰RT分別與相應對照品在35%A洗脫條件下的RT比較,預處理后的數據均分布在大于0而小于等于1的范圍。
2.5 RBFNN模型的建立、訓練及預測如上所述,當對某1個化合物色譜峰RT進行預測時,另外7個化合物色譜峰的RT數據作為特征值輸入RBFNN模型,每個化合物色譜峰RT的預測為單獨1個模型,本研究共建立有8個模型,各模型隱藏層神經元個數均選擇13,Spread參數選擇依據VS樣本預測情況而定,毛蕊異黃酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊異黃酮、槲皮素、山柰素、異鼠李素及芒柄花素各化合物對應模型所采用的Spread參數分別為1.5、1.0、1.0、1.5、0.5、1.0、0.5和1.5。
將TeS各樣本數據依次輸入各模型,可得出各化合物色譜峰RT預測數據,反歸一化處理后與測定的真實RT數據求差,結果見表 2。
![]() |
表 2 預測值與測定值之差(min)Tab.2 Prediction errors |
黃酮類化合物是一類重要的天然藥物化學成分,在自然界中分布甚廣。因此在本研究初始階段,首選從該類化合物入手,需要說明的是,與其他RT預測研究[4-6]不同,本研究對化合物色譜峰的RT預測的時候,并未將化合物的分子結構等相關信息納入研究信息范疇,所以理論上來講,本研究所創立的方法,無論是作為特征或是預測目標,都同樣適合其他類別的化合物,但是本著嚴謹的態度,這一點需要下一步的試驗進一步確證。
3.2 洗脫條件的選擇本著由簡入繁的思想,選擇簡單的甲醇和水洗脫系統,采用等度洗脫的方式進行切入研究。在設計TS樣本的時候,兼顧了實用性及樣本的代表性,甲醇于流動相中的比例在65%到35%的區間,盡可能均勻地選擇了13個點作為訓練樣本,所選擇的8個化合物色譜峰RT范圍為3.296~152.391 min,具有足夠廣的RT分布范圍,TS中毛蕊異黃酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊異黃酮、槲皮素、山柰素、異鼠李素及芒柄花素各化合物色譜峰RT范圍分別為3.296~11.634、3.785~40.522、4.154~30.610、5.048~57.155、5.070~60.773、6.530~113.671、6.965~147.024和7.937~152.391 min。同樣,為了優化得到的Spread參數適用性更佳,在VS樣本的選取時,洗脫梯度盡可能分布更廣。
此外,值得一提的是,根據本研究理論,對梯度洗脫情況下化合物色譜峰RT預測的相關研究正在進行中。
3.3 關于預測結果的解析本研究設計的TeS共分4個部分:第1部分為使用與TS和VS完全相同的儀器(H1)與色譜柱(C1),以及對照品溶液進樣的情況;第2部分為使用與TS和VS完全相同的儀器(H1)與色譜柱(C1),以及中藥復雜基質提取溶液進樣的情況;第3部分為使用與TS和VS完全不同的儀器(H2和H3)與同型號不同批次色譜柱(C2)的情況;第4部分為使用與TS和VS完全相同的儀器(H1)與不同廠家不同型號色譜柱(C3和C4)的情況。由表 2可知,TeS第4部分預測結果最差,而第1、第2和第3部分預測結果與實測值相比的誤差均在0.608 min以內,均有良好的預測表現。
最大誤差值出現在第1部分41%甲醇洗脫條件下,此時模型對芒柄花素色譜峰RT預測誤差為0.608 min,該化合物RT實測值為71.366 min,屬于比較極端的洗脫條件,此時另外7個化合物色譜峰RT預測值大多也有較大誤差;而59%甲醇洗脫也屬于比較極端洗脫條件(實測RT范圍:3.560~11.805 min),但是預測誤差卻極小(0.001~0.093 min),可見模型預測效果有與RT成反比的趨勢,分析原因可能色譜分析時間越長,受干擾因素就會增多,從而造成偶然誤差增大,導致模型預測結果與實測值會出現的較大的差別,然而從本研究數據來看,71.366 min的色譜峰保留時間有著0.608 min的預測誤差完全可以接受。
TeS第2部分選用的中藥材黃芪、葶藶子和側柏葉(見圖 4),均是以黃酮類成分為質控指標性成分,并且分別為植物的根、種子和葉,足以代表大多數中藥才的藥用部位使用情況。模型對該部分TeS預測結果良好,表明本研究能夠滿足中藥等復雜基質體系的分析要求。
![]() |
1.毛蕊異黃酮(calycosin)2.山柰苷(kaempferitrin)3.刺芒柄花苷(ononin)圖 4 黃芪(Ⅰ)、葶藶子(Ⅱ)和側柏葉(Ⅲ)樣品液相色譜圖Fig.4 HPLC chromatograms of Astragali Radix (Ⅰ), Descurainiae Semen (Ⅱ) and Platycladi Cacumen (Ⅲ) |
對于TeS第3部分來說,是為了考察不同柱前體積、不同儀器運行狀態和同型號不同批號色譜柱,模型適用情況而設。模型對于該部分預測結果良好,可見在指定型號色譜柱情況下,本研究建立的方法可應用于不同儀器。通常來講,由于不同廠家不同型號的色譜柱鍵合的基團不同,色譜行為會有著較大的差異,從機器學習原理來講,TS與TeS使用色譜柱如果差別較大,預測結果也會有較大誤差,這一點也從對TeS第4部分的預測結果得到證實,可見本研究所建立的方法具有一定的色譜柱排他性。
3.4 關于模型輸入特征的一些探討本研究使用多個化合物作為“探針”,起到探測和表征液相色譜條件特性的目的。由于本研究起到“探針”作用的化合物成分與待預測成分并未在同一分析基質體系內,故為稱為外部“探針”。對于基質對化合物色譜行為影響嚴重的情況,可以采用人為加入法,將“探針”化合物加入待預測基質內,即為內部“探針”。從本研究原理上來看,內部“探針”的選用其實應不受基質中原有化合物的束縛,但是關于其應用效果有待進一步深入研究數據的證實。
4 展望本研究應用機器學習理論中的神經網絡模型的方法,從本質上與相對保留時間等方法[2-3]完全不同,在模型的應用上與一些文獻報道的方法[4-6]相近,但是在特征選取上有著較大的差別,本研究并未將化合物分子結構作為模型特征,而專注于色譜條件特性的表征,創新地使用多種化合物(即“探針”)色譜峰的RT來表征色譜洗脫條件,具有簡便、直觀和準確的特點,不僅適用于已知結構和已知成分的色譜峰RT預測,對于未知結構或未知成分的色譜峰RT預測也同樣適用,而且可實現洗脫條件在一定范圍內的可調。
從本質上講,本研究前期的模型建立與訓練必不可少,在TS樣本的科學設計前提下,數據時代網絡化的今天給了本研究的應用提供了契機。本研究所建立的方法可應用于藥物分析領域中一測多評方法的待測成分RT定位,在規定色譜柱型號的前提下,可在一定范圍內對供試品溶液的洗脫條件進行優化,直到待測成分色譜峰與其他色譜峰完全分離。本研究還可應用于中藥特征圖譜中特征色譜峰的檢測定位,在模型建立后,只需提供“探針”化合物RT數據,便可在該洗脫條件下,精確鎖定特征圖譜中的特征峰應出現的位置。總而言之,本研究對于價高難制備的對照物質的替代具有極大的應用前景,只需使用幾個價廉易得的對照物質(或1個對照提取物)即可,對于中藥的質量分析、評價與控制工作都極具意義。
來源:藥物分析雜志 2019, Vol. 39 Issue (4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18
參考文獻
[1] |
孫磊, 金紅宇, 馬雙成, 等. 中藥標準物質替代測定法技術指導原則[J]. 中國藥學雜志, 2015, 50(4): 284.
SUN L, JIN HY, MA SC, et al. Guideline of substitute reference substance method for evaluation of traditional Chinese medicines[J]. Chin Pharm J, 2015, 50(4): 284. |
[2] |
中華人民共和國藥典2015年版.一部[S]. 2015: 303
ChP 2015. Vol Ⅰ[S]. 2015: 303 |
[3] |
孫磊, 金紅宇, 逄瑜, 等. 雙標多測法Ⅰ—雙標線性校正技術用于色譜峰的定性[J]. 藥物分析雜志, 2013, 33(8): 1424.
SUN L, JIN HY, PENG Y, et al. Two reference substance for determination of multiple components (Ⅰ): linear calibration using two reference substances for identification of chromatographic peaks[J]. Chin J Pharm Anal, 2013, 33(8): 1424. |
[4] |
MILLER TH, MUSENGA A, COWAN DA, et al. Prediction of chromatographic retention time in high-resolution anti-doping screening data using artificial neural networks[J]. Anal Chem, 2013, 85(21): 10330. DOI:10.1021/ac4024878
|
[5] |
GORY?SKI K, BOJKO B, NOWACZYK A, et al. Quantitative structure-retention relationships models for prediction of high performance liquid chromatography retention time of small molecules: endogenous metabolites and banned compounds[J]. Anal Chim Acta, 2013, 797: 13. DOI:10.1016/j.aca.2013.08.025
|
[6] |
JIAO L, XUE Z, WANG G, et al. QSPR study on the relative retention time of polybrominated diphenyl ethers (PBDEs) by using molecular distance-edge vector index[J]. Chemometr Intell Lab, 2014, 137: 91. DOI:10.1016/j.chemolab.2014.06.015
|
[7] |
MITCHELL MT. Machine Learning[M]. Westlake Village: McGraw-Hill Education, 1997: 2.
|
[8] |
YACIN SM, CHAKRAVARTHY VS, MANIVANNAN M. Reconstruction of gastric slow wave from finger photoplethysmographic signal using radial basis function neural network[J]. Med Biol Eng Comput, 2011, 49(11): 1241. DOI:10.1007/s11517-011-0796-1
|
[9] |
YUAN LF, DING C, GUO SH, et al. Prediction of the types of ion channel-targeted conotoxins based on radial basis function network[J]. Toxicol In Vitro, 2013, 27(2): 852. DOI:10.1016/j.tiv.2012.12.024
來源:藥物分析雜志 2019, Vol. 39 Issue (4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18
|