Polygenic Risk Score

คุณเคยสงสัยบ้างหรือไม่ว่า ทำไมบางคนมีความเสี่ยงในการเป็นโรคบางอย่างมากกว่าคนทั่วไป ความเสี่ยงในการเกิดโรคต่างๆโดยเฉพาะโรคที่พบได้ทั่วๆไป

คุณเคยสงสัยบ้างหรือไม่ว่า ทำไมบางคนมีความเสี่ยงในการเป็นโรคบางอย่างมากกว่าคนทั่วไป ความเสี่ยงในการเกิดโรคต่างๆโดยเฉพาะโรคที่พบได้ทั่วๆไป เช่น โรคเบาหวาน โรคความดัน โรคไขมัน มีปัจจัยที่ส่งเสริมทำให้เกิดโรคจากหลายสิ่ง เช่น สิ่งแวดล้อม อาหาร พันธุกรรม วิถีชีวิต ความเครียด การพักผ่อน และการออกกำลังกาย นอกจากเรื่องของโรคภัยไข้เจ็บแล้ว ยังมีลักษณะอื่นๆอีกที่พันธุกรรมมีผลร่วมด้วย เช่น ความสูง และ ความอ้วน เป็นต้น ในบทความนี้ผมจะอธิบายถึงเรื่อง polygenic risk score ซึ่งคือค่าจากพันธุกรรมที่มีความสัมพันธ์ที่จะเพิ่มความเสี่ยงทำให้เกิดโรคต่างๆขึ้นมา ในแบบที่เข้าใจง่ายครับ

 

 

จาก concept ของปัจจัยทางพันธุกรรมที่ส่งผลต่อโรคต่างๆ ผมขอแยกออกเป็น 2 กลุ่มหลักๆ ได้แก่

  1. pathogenic mutation (ยีนก่อโรค)
  2. Polygenic Risk Score (คะแนนความเสี่ยงโรค)

ซึ่งปัจจัยทางพันธุกรรม 2 กลุ่มนี้แตกต่างกันหลักๆ ที่เรื่องของ

  • น้ำหนัก ความรุนแรง หรือ โอกาสที่การแปรผันทางพันธุกรรมจะก่อให้เกิดโรค
  • จำนวน หรือปริมาณ DNA ที่ส่งผลต่อความเสี่ยงในการก่อโรคนั้นๆ
  • ความสามารถในการอธิบายโรคที่เจอได้บ่อย และโรคหายาก

ซึ่งในบทความนี้ผมจะกล่าวถึงเฉพาะส่วนที่เป็น polygenic risk score ครับ

 

 

Polygenic risk score สร้างขึ้นมาได้อย่างไร

 

DNA ของเรานั้นครึ่งหนึ่งได้รับมาจากพ่อ และอีกครึ่งหนึ่งได้รับมาจากแม่ ประกอบขึ้นเป็น DNA ของตัวเราทั้งหมด การแสดงออกทางพันธุกรรมต่างๆ รวมถึงความเสี่ยงที่จะเกิดโรคบางอย่างนั้นมีอิทธิพลมาจากหลายยีนหลายตำแหน่งทั่วทั้งจีโนม ร่วมกับปัจจัยทางสิ่งแวดล้อม การศึกษาแนวใหม่นี้ (ความสัมพันธ์ระหว่างการแปรผันทางพันธุกรรมที่ส่งผลต่อการแสดงออกของร่างกายหรือความเสี่ยงโรค) หรือที่เรียกว่าการศึกษาแบบ genome-wide association studies (GWAS) จึงเกิดขึ้น และได้มีการนำค่า DNA ที่ได้มา เอาไปสร้างเป็น polygenic risk score เพื่อใช้ทำนายความเสี่ยงโรค

โดยที่การศึกษาหาว่า DNA ตำแหน่งใดสัมพันธ์กับการเกิดโรค เราจะเริ่มต้นที่การแบ่งกลุ่มคนที่เป็นโรค และไม่เป็นโรคออกเป็น 2 กลุ่ม หลังจากนั้นทำการตรวจ DNA ทั่วทั้งจีโนม และนำ DNA ของทั้ง 2 กลุ่มนี้มาเปรียบเทียบกันด้วยสถิติว่าตำแหน่งใดของ DNA ความความเป็นไปได้สูงที่จะสัมพันธ์กับการเป็นโรค หรือไม่เป็นโรค

 

จากรูปเป็นการนำ DNA มาเปรียบเทียบกันระหว่างกลุ่มคนที่ไม่เป็นโรคและกลุ่มที่เป็นโรค

 

และเมื่อนำเอา DNA ทั่วทั้งจีโนมของกลุ่มคนทั้งสองกลุ่มมาเปรียบกันด้วยสถิติแล้วทำเป็นกราฟขึ้นมา เราจะพบว่า มีบางตำแหน่งของ DNA ซึ่งอาจจะมีมากตั้งแต่หลักร้อยถึงหลักแสนตำแหน่ง ที่สถิติชี้ว่ามีโอกาสสูงที่ DNA ตำแหน่งนั้นๆสัมพันธ์กับการเป็น หรือไม่เป็นโรค ดังภาพด้านล่างนี้ครับ

 

  • แกน X (แนวนอน) คือตำแหน่งของ DNA ทั่วทั้งจีโนมไล่ตั้งแต่ฝั่งซ้ายมือสุดคือโครโมโซมคู่ที่ 1 และฝั่งขวามือสุดคือโครโมโซมคู่ที่ 22
  • แกน Y (แนวตั้ง) คือค่า -log (P) ซึ่งแสดงความน่าจะเป็นที่ DNA ตำแหน่งนั้นๆมีความสัมพันธ์ หรือมีโอกาสสูงมากน้อยเพียงไร ต่อการเป็นหรือไม่เป็นโรค ยิ่งแกน Y ขึ้นสูงเท่าไรโอกาสที่ตำแหน่งนั้นมีความสัมพันธ์ต่อการเป็นโรคยิ่งสูงขึ้น จากรูปจะเห็นว่าได้มีการวงกลมจุดต่างๆที่มีค่า Y สูง หมายความว่าเราจะเอาค่าที่บริเวณดังกล่าวมาสร้าง polygenic risk score

 

หลังจากที่ได้ตำแหน่งต่างๆของ DNA ที่มีความสัมพันธ์กับการเกิดโรคออกมาแล้ว ก็มีการทำ quality control ต่างๆ และทำการนำตำแหน่ง DNA ที่ได้ไปทำวิเคราะห์การถดถอย (regression analysis เป็นวิธีทางสถิติที่ใช้หาความสัมพันธ์ระหว่างตัวแปรต้นคือ DNA และตัวแปรตามคือ เป็นหรือไม่เป็นโรค) เพื่อหาค่า beta หรือน้ำหนักของ DNA แต่ละตัวว่ามีความแรงมากน้อยเพียงใดที่จะก่อให้เกิดโรค หลังจากทำการวิเคราะห์ถดถอยแล้วจะสามารถสร้างเป็น polygenic risk socre ขึ้นมาได้ตามรูปด้านล่างนี้ครับ

Polygenic risk score หน้าตาเป็นอย่างไร

 

ตาราง polygenic risk score

 

  • คอลัมน์สีฟ้าคือตำแหน่งของ DNA
  • คอลัมน์สีแดงแสดงถึงค่า DNA ที่ส่งผลต่อการเป็นหรือไม่เป็นโรค
  • คอลัมน์สีเหลืองคือน้ำหนัก หรือโอกาสของ DNA ณ ตำแหน่งนี้ที่จะทำให้เกิดโรคมีมากน้อยเพียงไร

ตารางดังกล่าวนี้ ส่วนมากจะมีจำนวน DNA ตั้งแต่หลักสิบจนถึงหลักแสนขึ้นอยู่กับการออกแบบงานวิจัย โดยหลักการนำเอาไปใช้งานคือใช้คำนวน genetic score ของแต่ละบุคคล คล้ายๆกับการคิดเกรดเฉลี่ยวิชาเรียน ก็คือหากเราได้ DNA ที่ตำแหน่งสีฟ้า มีตัวอักษรเดียวกับคอลัมน์สีส้ม 1 ตัวเราจะได้ score เท่ากับคอลัมน์สีเหลือง หากได้ตัวหนังสือจากคอลัมน์สีส้มมา 2 ตัวเราก็จะได้ score เท่ากับคอลัมน์สีเหลืองคูณสองครับ ยกตัวอย่างเช่น

  • หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น AG ผมก็จะได้ genetic score = 0.03977
  • หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น AA ผมก็จะได้ genetic score = 0.07954
  • หาก DNA ที่ตำแหน่ง rs77242163 ของผมเป็น GG ผมก็จะได้ genetic score = 0

เราจะทำการคำนวณแบบนี้ไปจนครบทุกตำแหน่งของ DNA ตาม polygenic score สุดท้ายคือการรวมผล genetic score ออกมาได้เป็นเลขรวมเลขเดียว ดังนั้น 1 คนจะได้เลข genetic score รวม 1 ค่า ซึ่งเราจะสามารถเอาค่า genetic score นี้ไปสร้างเป็นกราฟเทียบกับประชากรได้ ดังภาพด้านล่างนี้ครับ

เพื่อให้เห็นภาพได้ง่ายขึ้น ผมขอเปรียบเทียบกับการคิดเกรดเฉลี่ยวิชาเรียน โดยที่จะผลสอบจะออกมาเป็นสอบตก (ค่า DNA ที่ตำแหน่งนั้นเป็น other_allele) และสอบผ่าน (ค่า DNA ที่ตำแหน่งนั้นเป็น effect_allele) ในแต่ละปี (แต่ละโรค) เราจะต้องสอบหลายวิชา (หลายตำแหน่ง DNA) และแต่ละวิชาจะมีน้ำหนักที่ไม่เท่ากัน (effect_weight) เมื่อได้ผลสอบทุกวิชาแล้วเราจะทำการถ่วงน้ำหนักแต่ละวิชาว่าเกรดเฉลี่ยรวม (genetic score) ของเราเป็นเท่าไร แต่ละคนจะได้คะแนนรวมนี้ 1 ค่า การที่เราจะสรุปได้ว่าเรามีคะแนนมากหรือน้อยนั้นจำเป็นต้องเอาคะแนนที่เราได้นี้ไปเปรียบเทียบกับเพื่อนในชั้นเรียนว่าเราอยู่ percentile ที่เท่าไรเราก็จะทราบได้ทันทีว่าคะแนนที่เราได้มานี้มีค่ามากหรือน้อย

 

 

จากกราฟนี้จะเห็นได้ว่าการกระจายตัวของ genetic score ในประชากรเป็นการกระจายตัวแบบปกติ ประชากรส่วนมากจะมีค่า genetic score อยู่ที่ช่วงกลางๆ และมีประชากรส่วนน้อยได้ค่า genetic score มากและน้อย

  • ผู้ที่ได้ค่า genetic score อยู่กลางๆมีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ปกติ
  • ผู้ที่ได้ค่า geneitc socre น้อย (ฝั่งซ้าย) มีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ที่น้อยกว่าคนทั่วไป
  • ผู้ที่ได้ค่า geneitc socre มาก (ฝั่งขวา) มีความหมายว่ามีความเสี่ยงที่จะเป็นโรคนั้นๆอยู่ในเกณฑ์ที่มากว่าคนทั่วไป

Polygenic risk score นำไปหาความเสี่ยงโรคได้อย่างไร

ซึ่งเราจะสามารถทราบได้ว่าค่า genetic score ที่เราได้มานี้มีความเสี่ยงในการเกิดโรคเท่าไร โดยการนำ genetic score ในแต่ละช่วง (ช่วงของ percentile) มาหา prevalence (โอกาสที่จะเป็นโรค ) ประมาณว่าคนที่ได้รับ genetic score อยู่ในช่วงเดียวกับเรามีโอกาสที่จะเป็นโรคดังกล่าวอยู่กี่ % นั่นเองครับ ผมได้สร้างกราฟขึ้นมาโดยที่

  • แกน X (แนวนอน ) คือ percentile ของคนที่มี genetic score น้อยที่สุด (ฝั่งซ้าย ) ไปจนถึงคนที่มี genetic score มากที่สุด (ฝั่งขวา) โดยที่จุด 1 จุดแสดงถึงจำนวนประชากร 2 percentile (2% ของประชากร)
  • แกน Y (แนวตั้ง) คือเปอร์เซ็นต์ของคนที่เป็นโรค (โอกาสเกิดโรค) ในช่วง 2 percentile นี้

จะเห็นได้ว่าจุดทั้งหมดมี 50 จุด ซึ่ง 1 จุดจะแทนประชากร 2% ดังนั้นจะมีประชากรทั้งหมด 100%จากกราฟจะสังเกตได้ว่าผู้ที่มี genetic score อยู่ที่ percentile น้อยจะโอกาสเกิดโรคต่ำกว่า (แกน Y) ผู้ที่มี genetic score อยู่ที่ percentile สูง

 

จากภาพซ้ายมือนี้ เป็นการหาความเสี่ยงโรคจาก genetic score ที่เราได้รับเทียบกับประชากรทั้งหมด พบว่าหากเราได้ค่า percentile ที่ 50 จะมีความเสี่ยงโรคประมาณ 1.9% (เส้นสีแดง) ส่วนถ้าเราได้ค่า genetic score อยุ่ในช่วง percentile 86-88 เราจะมีความเสี่ยงเกิดโรคอยู่ที่ 2.5%
ดังนั้นแปลว่าเรามีความเสี่ยงเป็นโรคมากกว่าคนทั่วไปประมาณ 1.31 เท่า หรือ 31% นั่นเองครับ

ข้อจำกัดของ polygenic risk score

  • ความแม่นยำอาจจะไม่สูงมากนักขึ้นอยู่กับหลายปัจจัยในทางสถิติ เป็นเพียงค่าประมาณการความเสี่ยงโรคแต่ละบุคคลโดยเฉลี่ย
  • ไม่ได้นับรวมปัจจัยที่ก่อให้เกิดโรคจากสิ่งแวดล้อม
  • มีความจำเพาะกับเชื้อชาตินั้นๆ หมายความว่า ความแม่นยำในการทำนายโรคจะสูงเมื่อเชื้อชาติของผู้ตรวจตรงกับเชื้อชาติที่นำมาสร้าง polygenic risk score และหากนำเชื้อชาติที่ไม่ตรงกับ polygenic risk score ผลที่ได้จะไม่มีความแม่นยำ หรือความแม่นยำลดลง
  • polygenic risk score ไม่ได้บอกว่าเป็นสาเหตุของการเกิดโรคนั้นๆได้อย่างไร เป็นเพียงการหาความสัมพันธ์ของ DNA กับโอกาสเกิดโรค

เป็นอย่างไรกันบ้างครับ ในบทความนี้ผมได้อธิบายที่มาที่ไปของ polygenic risk score อย่างย่อให้ท่านผู้อ่านได้เห็นภาพว่า polygenic risk score นี้มีหลักการทำงานอย่างไร ทำนายความเสี่ยงในการเกิดโรคได้อย่างไร เพื่อเป็นประโยชน์ในการเข้าใจ และเห็นภาพได้ดียิ่งขึ้นเมื่ออ่านผล DNA ครับ

 

reference :

https://pubmed.ncbi.nlm.nih.gov/29727703/

https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1010105

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6001694/