מדוע Hadoop הוא התאמה מושלמת לרצף גנום

מְחַבֵּר: Roger Morrison
תאריך הבריאה: 19 סֶפּטֶמבֶּר 2021
תאריך עדכון: 5 מאי 2024
Anonim
Cassandra vs MongoDB vs HBase | Difference Between Popular NoSQL Databases | Edureka
וִידֵאוֹ: Cassandra vs MongoDB vs HBase | Difference Between Popular NoSQL Databases | Edureka

תוֹכֶן


מקור: A3701027 / Dreamstime.com

להסיר:

רצף הגנום זקוק לכלים טכנולוגיים רבי עוצמה כדי להתמודד עם כל הנתונים שלו, וחברת Hadoop עומדת במשימה.

גנומיקה קלינית היא נושא מרתק, בו אנשים עובדים על טכנולוגיות מתקדמות כדי לעבד תוצאות מהירות ומדויקות. ישנם המון רצפי גנום זמינים בשוק והם מייצרים פטביטים של נתוני רצף, והצמיחה ברצף הולכת לייצר צמיחת נתונים בזמן הקרוב. כאן, Hadoop היא הפלטפורמה המושלמת לעיבוד זרימת עבודה מורכבת של גנומיקה. Hadoop יכולה לאחסן ולמיין כמויות אדירות של מידע ויכולה גם לבצע ניתוח משמעותי. (כדי לקבל מושג על כמה נתונים זה באמת קשור, קרא את הבנת הביטים, הביטים והמכפילים שלהם.)

ההווה והעתיד של הגנום

כיום, מיפוי הגנום הגיע לשיא ההתפתחות שלו. אנשים רבים הקשורים לתעשיית הגנום מתפוצצים מסקרנות, וככל שהזדמנויות חדשות מציגות את עצמן, טכנולוגיה טובה יותר היא הצורך של השעה. רצף גנום הוא משימה חזקה מאוד ועתירת משאבים. בשנת 2013 בלבד הופקו כ -15 פטאטים של נתונים, ורק על ידי 2,000 רצפים. כמות נשירת לסת זו כללה 300 קילוגרם של נתונים בגנום אנושי ברצף. בקצב זה של ייצור נתונים, ניתן להעריך כי עד שנת 2018 יפיקו כמות אחת של נתונים בודדים. זה נובע מגידול רצפי רצף, שייצרו יותר ויותר נתונים בכל ריצה. סיבה נוספת היא הופעתן של מכונות רצף גנום חזקות במיוחד בעלות נמוכה. מאז 2008 מחיר מכונות אלה יורד בהתמדה. הסיבה לכך היא מכונות הדור הבא העוצמתיות שנכנסה לשוק.


צרכי ענף מיפוי הגנום

אלגוריתמים מורכבים משמשים לעיבוד הנתונים שנאספים מהגנום האנושי. לאחר מכן, מידע זה צריך להיות מאוחסן. יתכן שהוא ייבחן בעתיד לצורך השוואה לנתונים המקוריים. המשימה לעיבוד ואחסון של 100 GB של נתונים אינה קשה מדי, במיוחד כשאתה עושה את זה עם המכונות החזקות המופעלות במרכזי הרצף. מחקרים מראים כי ניתן לעבד את כמות הנתונים הזו בכאלף שעות מעבד, כך שזה קל מאוד. בקצב התקדמות טכני זה נראה כי תעשיית הגנום תעבד בקרוב אלפי גיגה-בייט תוך מספר שניות ספורות.

עם זאת, טכניקות ניהול ואחסון הנתונים לא מתפתחות במהירות, וכתוצאה מכך ניתן לצפות לאובדן גדול של נתונים יקרים. זה ממש לא רצוי, מכיוון שזה יעכב ברצינות את ההתקדמות שנעשתה בגנומיקה האנושית. אז הצורך בטכניקת ניהול נתונים יעילה, שניתן לעדכן אותה בקלות, הוא גבוה מאוד. זה יכול להיות יעיל במיוחד בעתיד הקרוב, בו מיפוי הגנום יעבור ממעבדות גדולות עם מחשבים חזקים לבתי חולים ומעבדות קטנות.

מה צפוי בפתרון?

הקצב בו מתגלות ומתפתחות טכניקות רצף גנומיות חדשות הוא גבוה ביותר. קצב זה יכול להועיל מאוד למדע הרפואה בצורה של צעד עוצמתי למיגור מחלות עיקריות. עם זאת, קצב זה יכול להיות מאוד מאתגר.


האתגר מגיע בצורה של ניהול כמויות גדולות של נתונים שהופקו על ידי פרויקטי הרצף. אז, יש צורך בפתרון יעיל שיסייע באחסון ועיבוד נתונים גדולים. פיתרון זה חייב להיות זול ומהיר, תוך שהוא גם מסתגל. על הניתוח שמספק פיתרון זה להיות מדויק ומתמיד. אז מה הפיתרון לבעיה? ללא ספק, זה Hadoop. (למידע נוסף על השימושים בחדואף, ראו 5 תובנות אודות ביג דאטה (Hadoop) כשירות.)

מדוע Hadoop הוא הפיתרון הטוב ביותר לרצף גנום

מה שתעשיית הגנומיקה זקוקה לו הוא פיתרון מעולה שיכול לעזור להם לנהל ביעילות את הנתונים, לעבד אותם ולאחסן אותם לשימוש עתידי. נראה כי פיתרון זה הוא התאמה מושלמת עם תוכנת Hadoop. אז, Hadoop יכול להיחשב כתוכנה המושלמת לניהול נתונים גדולים שיכולה לשפר מאוד את הטכניקות הנוכחיות לאחסון נתונים בתעשיית הגנומיקה.

היכולות בזמן אמת של Hadoop מאפשרות לרצפי הגנום לנתח ולאחסן כמויות גדולות של נתונים בבת אחת בזמן אמת. זה מאפשר גם את השימוש העתידי של הנתונים. Hadoop יכולה לנצח מערכות רבות מדור קודם, מכיוון שהיא הרבה יותר מהירה ואמינה מהן.

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

מה אחרת יכולה Hadoop לעשות?

בעקבות Hadoop נפתחו מספר רב של אפשרויות והזדמנויות בתחום הגנומיקה ורצף הגנים. Hadoop מציעה אפשרויות מחשוב מקבילות שבזכותן ניתן לבצע רצף מהיר יותר. כמו כן, באמצעות הפונקציה MapReduce של Hadoop, ניתן למפות מספר רב של גנים בקלות רבה. בגלל זה, רצף עם Hadoop יהפוך באמת ל"הגני הבא "ויהיה הרבה פחות מסובך.

הזדמנויות עבור Hadoop

לחאדוף יש מספר הזדמנויות בתעשיית הגנום, אך הטוב ביותר נגזר ממאמר של לינדה צ'ין "הגיוני מנתונים גנומיים של סרטן", בכתב העת Genes & Development. במאמר זה היא דנה כיצד גנומיקה מודרנית פתחה דלתות חדשות, והדבר הוביל לתוצאות חיוביות רבות כמו גילוי מידע גנומי על סרטן. בשל כך אנו קרובים יותר לגלות את התרופה לסרטן עצמו. עם זאת, הדבר זקוק לקצת יותר תשומת לב ויישום רב עוצמה של ניהול נתונים, על מנת יכולת מחקר טובה יותר בתחום. זו יכולה להיות ההזדמנות הטובה ביותר עבור Hadoop להוכיח את המהירות, העוצמה והדיוק שלה.

Crossbow: פלטפורמת ניהול הנתונים מהדור הבא

Crossbow, שהוא צינור תוכנה המיועד לניתוח רצף הגנום מחדש, הוא אחד הפתרונות הטובים ביותר. זו הייתה תוצאה של שילוב בתוך Hadoop בין אלגוריתם מהיר ליישור הנתונים המורצבים, הנקרא Bowtie, לבין אלגוריתם רב עוצמה המשווה ובוחן את הנתונים המורצבים, כלומר גנוטיפר בשם SoapSNP. הוא בנוי על אפאצ'י חאדו ו מבוסס על יישום של מסגרת MapReduce. קרוסבו הוא נייד, ניתן להרחבה ומתאים גם ככלי מחשוב ענן.

בעזרת שילוב עוצמתי זה ניתן לבחון גנום שלם ביום אחד בלבד על אשכול מקומי שיש לו 10 צמתים. עם אשכול של 40 צומתים, התהליך מהיר אף יותר ומסתיים בשלוש שעות בלבד בעלות כוללת של פחות מ 100 $! מחקר שנערך לבדיקת דיוק קרוסבו הראה שהוא יכול להשוות כל גנום ברמת דיוק של 99 אחוזים. מאפיין מועיל נוסף של Crossbow הוא שהוא פועל על הענן. לפיכך, קרוסבו תאפשר לאלפי מרכזי הרצף העתידית, כמו בתי חולים, לרצף כמויות גדולות של נתוני גנום ללא צורך במחשבים וטכנולוגיה חזקים ויקרים.

תוכנה אחרת מבוססת Hadoop גנומיקה

חברות רבות הכירו בכוחו של Hadoop בשינוי עולם הגנומיקה. הם שינו את Hadoop כראוי כדי לנצל את הפוטנציאל שלה לרצף גנום מתקדם. להלן מספר דוגמאות לפתרונות רצף גנום מפורסמים של Hadoop:

  • Hadoop-BAM: זהו כלי רב עוצמה לניהול נתונים המשתמש בפונקציה MapReduce של Hadoop לפעילויות שונות הקשורות לגנומיקה, כמו גנוטיפ. זה עובד בתבנית יישור / מפה בינארית.
  • Cloudburst: פיתרון מבוסס Hadoop נוצר בשנת 2009. הוא יעיל ביותר בהשוואה בין רצפי גנום ומיפוי גנים בודדים. זהו גם אחד היישומים הראשונים מבוססי Hadoop שתוכננו למטרה זו.

סיכום

האינטגרציה בין נתונים גדולים לתעשיית הגנומיקה מתגלה כמי שמייצרת בעידן המודרני. פלטפורמות אלה יעילות לגילוי טיפולים של מספר מחלות כמו סרטן. ניתן להשתמש בנתונים שנמצאים על ידי מיפוי גנום לצורך ניסוח מידע מונע של מחלות כאלה. הופעתם של נתונים גדולים יכולה להיחשב כנקודת מפנה בעולם הגנומיקה, ואם משתמשים במידע בצורה מושכלת, אולי גם בתחום הרחב יותר של הבריאות. הדרך היחידה להתקדם בתחום זה היא השימוש בכלי ניהול נתונים נאותים כמו Hadoop.