IGDRPT (Indian Genetic Disease Risk Prediction Tool)

Disease Name: Haemophilia A

1 .Inheritance

X-linked Recessive

2. Gene Name

FVIII

3. Protein Name

Coagulation factor VIII

4. Chromosomal Location

Xq28

5. Protein Sequence

>sp|P00451|FA8_HUMAN Coagulation factor VIII OS=Homo sapiens OX=9606 GN=F8 PE=1 SV=1

MQIELSTCFFLCLLRFCFSATRRYYLGAVELSWDYMQSDLGELPVDARFPPRVPKSFPFN

TSVVYKKTLFVEFTDHLFNIAKPRPPWMGLLGPTIQAEVYDTVVITLKNMASHPVSLHAV

GVSYWKASEGAEYDDQTSQREKEDDKVFPGGSHTYVWQVLKENGPMASDPLCLTYSYLSH

VDLVKDLNSGLIGALLVCREGSLAKEKTQTLHKFILLFAVFDEGKSWHSETKNSLMQDRD

AASARAWPKMHTVNGYVNRSLPGLIGCHRKSVYWHVIGMGTTPEVHSIFLEGHTFLVRNH

RQASLEISPITFLTAQTLLMDLGQFLLFCHISSHQHDGMEAYVKVDSCPEEPQLRMKNNE

EAEDYDDDLTDSEMDVVRFDDDNSPSFIQIRSVAKKHPKTWVHYIAAEEEDWDYAPLVLA

PDDRSYKSQYLNNGPQRIGRKYKKVRFMAYTDETFKTREAIQHESGILGPLLYGEVGDTL

LIIFKNQASRPYNIYPHGITDVRPLYSRRLPKGVKHLKDFPILPGEIFKYKWTVTVEDGP

TKSDPRCLTRYYSSFVNMERDLASGLIGPLLICYKESVDQRGNQIMSDKRNVILFSVFDE

NRSWYLTENIQRFLPNPAGVQLEDPEFQASNIMHSINGYVFDSLQLSVCLHEVAYWYILS

IGAQTDFLSVFFSGYTFKHKMVYEDTLTLFPFSGETVFMSMENPGLWILGCHNSDFRNRG

MTALLKVSSCDKNTGDYYEDSYEDISAYLLSKNNAIEPRSFSQNSRHPSTRQKQFNATTI

PENDIEKTDPWFAHRTPMPKIQNVSSSDLLMLLRQSPTPHGLSLSDLQEAKYETFSDDPS

PGAIDSNNSLSEMTHFRPQLHHSGDMVFTPESGLQLRLNEKLGTTAATELKKLDFKVSST

SNNLISTIPSDNLAAGTDNTSSLGPPSMPVHYDSQLDTTLFGKKSSPLTESGGPLSLSEE

NNDSKLLESGLMNSQESSWGKNVSSTESGRLFKGKRAHGPALLTKDNALFKVSISLLKTN

KTSNNSATNRKTHIDGPSLLIENSPSVWQNILESDTEFKKVTPLIHDRMLMDKNATALRL

NHMSNKTTSSKNMEMVQQKKEGPIPPDAQNPDMSFFKMLFLPESARWIQRTHGKNSLNSG

QGPSPKQLVSLGPEKSVEGQNFLSEKNKVVVGKGEFTKDVGLKEMVFPSSRNLFLTNLDN

LHENNTHNQEKKIQEEIEKKETLIQENVVLPQIHTVTGTKNFMKNLFLLSTRQNVEGSYD

GAYAPVLQDFRSLNDSTNRTKKHTAHFSKKGEEENLEGLGNQTKQIVEKYACTTRISPNT

SQQNFVTQRSKRALKQFRLPLEETELEKRIIVDDTSTQWSKNMKHLTPSTLTQIDYNEKE

KGAITQSPLSDCLTRSHSIPQANRSPLPIAKVSSFPSIRPIYLTRVLFQDNSSHLPAASY

RKKDSGVQESSHFLQGAKKNNLSLAILTLEMTGDQREVGSLGTSATNSVTYKKVENTVLP

KPDLPKTSGKVELLPKVHIYQKDLFPTETSNGSPGHLDLVEGSLLQGTEGAIKWNEANRP

GKVPFLRVATESSAKTPSKLLDPLAWDNHYGTQIPKEEWKSQEKSPEKTAFKKKDTILSL

NACESNHAIAAINEGQNKPEIEVTWAKQGRTERLCSQNPPVLKRHQREITRTTLQSDQEE

IDYDDTISVEMKKEDFDIYDEDENQSPRSFQKKTRHYFIAAVERLWDYGMSSSPHVLRNR

AQSGSVPQFKKVVFQEFTDGSFTQPLYRGELNEHLGLLGPYIRAEVEDNIMVTFRNQASR

PYSFYSSLISYEEDQRQGAEPRKNFVKPNETKTYFWKVQHHMAPTKDEFDCKAWAYFSDV

DLEKDVHSGLIGPLLVCHTNTLNPAHGRQVTVQEFALFFTIFDETKSWYFTENMERNCRA

PCNIQMEDPTFKENYRFHAINGYIMDTLPGLVMAQDQRIRWYLLSMGSNENIHSIHFSGH

VFTVRKKEEYKMALYNLYPGVFETVEMLPSKAGIWRVECLIGEHLHAGMSTLFLVYSNKC

QTPLGMASGHIRDFQITASGQYGQWAPKLARLHYSGSINAWSTKEPFSWIKVDLLAPMII

HGIKTQGARQKFSSLYISQFIIMYSLDGKKWQTYRGNSTGTLMVFFGNVDSSGIKHNIFN

PPIIARYIRLHPTHYSIRSTLRMELMGCDLNSCSMPLGMESKAISDAQITASSYFTNMFA

TWSPSKARLHLQGRSNAWRPQVNNPKEWLQVDFQKTMKVTGVTTQGVKSLLTSMYVKEFL

ISSSQDGHQWTLFFQNGKVKVFQGNQDSFTPVVNSLDPPLLTRYLRIHPQSWVHQIALRM

EVLGCEAQDLY

6. Gene Sequence

>NM_000132.3 Homo sapiens coagulation factor VIII (F8), transcript variant 1, mRNA

GCTTAGTGCTGAGCACATCCAGTGGGTAAAGTTCCTTAAAATGCTCTGCAAAGAAATTGGGACTTTTCAT

TAAATCAGAAATTTTACTTTTTTCCCCTCCTGGGAGCTAAAGATATTTTAGAGAAGAATTAACCTTTTGC

TTCTCCAGTTGAACATTTGTAGCAATAAGTCATGCAAATAGAGCTCTCCACCTGCTTCTTTCTGTGCCTT

TTGCGATTCTGCTTTAGTGCCACCAGAAGATACTACCTGGGTGCAGTGGAACTGTCATGGGACTATATGC

AAAGTGATCTCGGTGAGCTGCCTGTGGACGCAAGATTTCCTCCTAGAGTGCCAAAATCTTTTCCATTCAA

CACCTCAGTCGTGTACAAAAAGACTCTGTTTGTAGAATTCACGGATCACCTTTTCAACATCGCTAAGCCA

AGGCCACCCTGGATGGGTCTGCTAGGTCCTACCATCCAGGCTGAGGTTTATGATACAGTGGTCATTACAC

TTAAGAACATGGCTTCCCATCCTGTCAGTCTTCATGCTGTTGGTGTATCCTACTGGAAAGCTTCTGAGGG

AGCTGAATATGATGATCAGACCAGTCAAAGGGAGAAAGAAGATGATAAAGTCTTCCCTGGTGGAAGCCAT

ACATATGTCTGGCAGGTCCTGAAAGAGAATGGTCCAATGGCCTCTGACCCACTGTGCCTTACCTACTCAT

ATCTTTCTCATGTGGACCTGGTAAAAGACTTGAATTCAGGCCTCATTGGAGCCCTACTAGTATGTAGAGA

AGGGAGTCTGGCCAAGGAAAAGACACAGACCTTGCACAAATTTATACTACTTTTTGCTGTATTTGATGAA

GGGAAAAGTTGGCACTCAGAAACAAAGAACTCCTTGATGCAGGATAGGGATGCTGCATCTGCTCGGGCCT

GGCCTAAAATGCACACAGTCAATGGTTATGTAAACAGGTCTCTGCCAGGTCTGATTGGATGCCACAGGAA

ATCAGTCTATTGGCATGTGATTGGAATGGGCACCACTCCTGAAGTGCACTCAATATTCCTCGAAGGTCAC

ACATTTCTTGTGAGGAACCATCGCCAGGCGTCCTTGGAAATCTCGCCAATAACTTTCCTTACTGCTCAAA

CACTCTTGATGGACCTTGGACAGTTTCTACTGTTTTGTCATATCTCTTCCCACCAACATGATGGCATGGA

AGCTTATGTCAAAGTAGACAGCTGTCCAGAGGAACCCCAACTACGAATGAAAAATAATGAAGAAGCGGAA

GACTATGATGATGATCTTACTGATTCTGAAATGGATGTGGTCAGGTTTGATGATGACAACTCTCCTTCCT

TTATCCAAATTCGCTCAGTTGCCAAGAAGCATCCTAAAACTTGGGTACATTACATTGCTGCTGAAGAGGA

GGACTGGGACTATGCTCCCTTAGTCCTCGCCCCCGATGACAGAAGTTATAAAAGTCAATATTTGAACAAT

GGCCCTCAGCGGATTGGTAGGAAGTACAAAAAAGTCCGATTTATGGCATACACAGATGAAACCTTTAAGA

CTCGTGAAGCTATTCAGCATGAATCAGGAATCTTGGGACCTTTACTTTATGGGGAAGTTGGAGACACACT

GTTGATTATATTTAAGAATCAAGCAAGCAGACCATATAACATCTACCCTCACGGAATCACTGATGTCCGT

CCTTTGTATTCAAGGAGATTACCAAAAGGTGTAAAACATTTGAAGGATTTTCCAATTCTGCCAGGAGAAA

TATTCAAATATAAATGGACAGTGACTGTAGAAGATGGGCCAACTAAATCAGATCCTCGGTGCCTGACCCG

CTATTACTCTAGTTTCGTTAATATGGAGAGAGATCTAGCTTCAGGACTCATTGGCCCTCTCCTCATCTGC

TACAAAGAATCTGTAGATCAAAGAGGAAACCAGATAATGTCAGACAAGAGGAATGTCATCCTGTTTTCTG

TATTTGATGAGAACCGAAGCTGGTACCTCACAGAGAATATACAACGCTTTCTCCCCAATCCAGCTGGAGT

GCAGCTTGAGGATCCAGAGTTCCAAGCCTCCAACATCATGCACAGCATCAATGGCTATGTTTTTGATAGT

TTGCAGTTGTCAGTTTGTTTGCATGAGGTGGCATACTGGTACATTCTAAGCATTGGAGCACAGACTGACT

TCCTTTCTGTCTTCTTCTCTGGATATACCTTCAAACACAAAATGGTCTATGAAGACACACTCACCCTATT

CCCATTCTCAGGAGAAACTGTCTTCATGTCGATGGAAAACCCAGGTCTATGGATTCTGGGGTGCCACAAC

TCAGACTTTCGGAACAGAGGCATGACCGCCTTACTGAAGGTTTCTAGTTGTGACAAGAACACTGGTGATT

ATTACGAGGACAGTTATGAAGATATTTCAGCATACTTGCTGAGTAAAAACAATGCCATTGAACCAAGAAG

CTTCTCCCAGAATTCAAGACACCCTAGCACTAGGCAAAAGCAATTTAATGCCACCACAATTCCAGAAAAT

GACATAGAGAAGACTGACCCTTGGTTTGCACACAGAACACCTATGCCTAAAATACAAAATGTCTCCTCTA

GTGATTTGTTGATGCTCTTGCGACAGAGTCCTACTCCACATGGGCTATCCTTATCTGATCTCCAAGAAGC

CAAATATGAGACTTTTTCTGATGATCCATCACCTGGAGCAATAGACAGTAATAACAGCCTGTCTGAAATG

ACACACTTCAGGCCACAGCTCCATCACAGTGGGGACATGGTATTTACCCCTGAGTCAGGCCTCCAATTAA

GATTAAATGAGAAACTGGGGACAACTGCAGCAACAGAGTTGAAGAAACTTGATTTCAAAGTTTCTAGTAC

ATCAAATAATCTGATTTCAACAATTCCATCAGACAATTTGGCAGCAGGTACTGATAATACAAGTTCCTTA

GGACCCCCAAGTATGCCAGTTCATTATGATAGTCAATTAGATACCACTCTATTTGGCAAAAAGTCATCTC

CCCTTACTGAGTCTGGTGGACCTCTGAGCTTGAGTGAAGAAAATAATGATTCAAAGTTGTTAGAATCAGG

TTTAATGAATAGCCAAGAAAGTTCATGGGGAAAAAATGTATCGTCAACAGAGAGTGGTAGGTTATTTAAA

GGGAAAAGAGCTCATGGACCTGCTTTGTTGACTAAAGATAATGCCTTATTCAAAGTTAGCATCTCTTTGT

TAAAGACAAACAAAACTTCCAATAATTCAGCAACTAATAGAAAGACTCACATTGATGGCCCATCATTATT

AATTGAGAATAGTCCATCAGTCTGGCAAAATATATTAGAAAGTGACACTGAGTTTAAAAAAGTGACACCT

TTGATTCATGACAGAATGCTTATGGACAAAAATGCTACAGCTTTGAGGCTAAATCATATGTCAAATAAAA

CTACTTCATCAAAAAACATGGAAATGGTCCAACAGAAAAAAGAGGGCCCCATTCCACCAGATGCACAAAA

TCCAGATATGTCGTTCTTTAAGATGCTATTCTTGCCAGAATCAGCAAGGTGGATACAAAGGACTCATGGA

AAGAACTCTCTGAACTCTGGGCAAGGCCCCAGTCCAAAGCAATTAGTATCCTTAGGACCAGAAAAATCTG

TGGAAGGTCAGAATTTCTTGTCTGAGAAAAACAAAGTGGTAGTAGGAAAGGGTGAATTTACAAAGGACGT

AGGACTCAAAGAGATGGTTTTTCCAAGCAGCAGAAACCTATTTCTTACTAACTTGGATAATTTACATGAA

AATAATACACACAATCAAGAAAAAAAAATTCAGGAAGAAATAGAAAAGAAGGAAACATTAATCCAAGAGA

ATGTAGTTTTGCCTCAGATACATACAGTGACTGGCACTAAGAATTTCATGAAGAACCTTTTCTTACTGAG

CACTAGGCAAAATGTAGAAGGTTCATATGACGGGGCATATGCTCCAGTACTTCAAGATTTTAGGTCATTA

AATGATTCAACAAATAGAACAAAGAAACACACAGCTCATTTCTCAAAAAAAGGGGAGGAAGAAAACTTGG

AAGGCTTGGGAAATCAAACCAAGCAAATTGTAGAGAAATATGCATGCACCACAAGGATATCTCCTAATAC

AAGCCAGCAGAATTTTGTCACGCAACGTAGTAAGAGAGCTTTGAAACAATTCAGACTCCCACTAGAAGAA

ACAGAACTTGAAAAAAGGATAATTGTGGATGACACCTCAACCCAGTGGTCCAAAAACATGAAACATTTGA

CCCCGAGCACCCTCACACAGATAGACTACAATGAGAAGGAGAAAGGGGCCATTACTCAGTCTCCCTTATC

AGATTGCCTTACGAGGAGTCATAGCATCCCTCAAGCAAATAGATCTCCATTACCCATTGCAAAGGTATCA

TCATTTCCATCTATTAGACCTATATATCTGACCAGGGTCCTATTCCAAGACAACTCTTCTCATCTTCCAG

CAGCATCTTATAGAAAGAAAGATTCTGGGGTCCAAGAAAGCAGTCATTTCTTACAAGGAGCCAAAAAAAA

TAACCTTTCTTTAGCCATTCTAACCTTGGAGATGACTGGTGATCAAAGAGAGGTTGGCTCCCTGGGGACA

AGTGCCACAAATTCAGTCACATACAAGAAAGTTGAGAACACTGTTCTCCCGAAACCAGACTTGCCCAAAA

CATCTGGCAAAGTTGAATTGCTTCCAAAAGTTCACATTTATCAGAAGGACCTATTCCCTACGGAAACTAG

CAATGGGTCTCCTGGCCATCTGGATCTCGTGGAAGGGAGCCTTCTTCAGGGAACAGAGGGAGCGATTAAG

TGGAATGAAGCAAACAGACCTGGAAAAGTTCCCTTTCTGAGAGTAGCAACAGAAAGCTCTGCAAAGACTC

CCTCCAAGCTATTGGATCCTCTTGCTTGGGATAACCACTATGGTACTCAGATACCAAAAGAAGAGTGGAA

ATCCCAAGAGAAGTCACCAGAAAAAACAGCTTTTAAGAAAAAGGATACCATTTTGTCCCTGAACGCTTGT

GAAAGCAATCATGCAATAGCAGCAATAAATGAGGGACAAAATAAGCCCGAAATAGAAGTCACCTGGGCAA

AGCAAGGTAGGACTGAAAGGCTGTGCTCTCAAAACCCACCAGTCTTGAAACGCCATCAACGGGAAATAAC

TCGTACTACTCTTCAGTCAGATCAAGAGGAAATTGACTATGATGATACCATATCAGTTGAAATGAAGAAG

GAAGATTTTGACATTTATGATGAGGATGAAAATCAGAGCCCCCGCAGCTTTCAAAAGAAAACACGACACT

ATTTTATTGCTGCAGTGGAGAGGCTCTGGGATTATGGGATGAGTAGCTCCCCACATGTTCTAAGAAACAG

GGCTCAGAGTGGCAGTGTCCCTCAGTTCAAGAAAGTTGTTTTCCAGGAATTTACTGATGGCTCCTTTACT

CAGCCCTTATACCGTGGAGAACTAAATGAACATTTGGGACTCCTGGGGCCATATATAAGAGCAGAAGTTG

AAGATAATATCATGGTAACTTTCAGAAATCAGGCCTCTCGTCCCTATTCCTTCTATTCTAGCCTTATTTC

TTATGAGGAAGATCAGAGGCAAGGAGCAGAACCTAGAAAAAACTTTGTCAAGCCTAATGAAACCAAAACT

TACTTTTGGAAAGTGCAACATCATATGGCACCCACTAAAGATGAGTTTGACTGCAAAGCCTGGGCTTATT

TCTCTGATGTTGACCTGGAAAAAGATGTGCACTCAGGCCTGATTGGACCCCTTCTGGTCTGCCACACTAA

CACACTGAACCCTGCTCATGGGAGACAAGTGACAGTACAGGAATTTGCTCTGTTTTTCACCATCTTTGAT

GAGACCAAAAGCTGGTACTTCACTGAAAATATGGAAAGAAACTGCAGGGCTCCCTGCAATATCCAGATGG

AAGATCCCACTTTTAAAGAGAATTATCGCTTCCATGCAATCAATGGCTACATAATGGATACACTACCTGG

CTTAGTAATGGCTCAGGATCAAAGGATTCGATGGTATCTGCTCAGCATGGGCAGCAATGAAAACATCCAT

TCTATTCATTTCAGTGGACATGTGTTCACTGTACGAAAAAAAGAGGAGTATAAAATGGCACTGTACAATC

TCTATCCAGGTGTTTTTGAGACAGTGGAAATGTTACCATCCAAAGCTGGAATTTGGCGGGTGGAATGCCT

TATTGGCGAGCATCTACATGCTGGGATGAGCACACTTTTTCTGGTGTACAGCAATAAGTGTCAGACTCCC

CTGGGAATGGCTTCTGGACACATTAGAGATTTTCAGATTACAGCTTCAGGACAATATGGACAGTGGGCCC

CAAAGCTGGCCAGACTTCATTATTCCGGATCAATCAATGCCTGGAGCACCAAGGAGCCCTTTTCTTGGAT

CAAGGTGGATCTGTTGGCACCAATGATTATTCACGGCATCAAGACCCAGGGTGCCCGTCAGAAGTTCTCC

AGCCTCTACATCTCTCAGTTTATCATCATGTATAGTCTTGATGGGAAGAAGTGGCAGACTTATCGAGGAA

ATTCCACTGGAACCTTAATGGTCTTCTTTGGCAATGTGGATTCATCTGGGATAAAACACAATATTTTTAA

CCCTCCAATTATTGCTCGATACATCCGTTTGCACCCAACTCATTATAGCATTCGCAGCACTCTTCGCATG

GAGTTGATGGGCTGTGATTTAAATAGTTGCAGCATGCCATTGGGAATGGAGAGTAAAGCAATATCAGATG

CACAGATTACTGCTTCATCCTACTTTACCAATATGTTTGCCACCTGGTCTCCTTCAAAAGCTCGACTTCA

CCTCCAAGGGAGGAGTAATGCCTGGAGACCTCAGGTGAATAATCCAAAAGAGTGGCTGCAAGTGGACTTC

CAGAAGACAATGAAAGTCACAGGAGTAACTACTCAGGGAGTAAAATCTCTGCTTACCAGCATGTATGTGA

AGGAGTTCCTCATCTCCAGCAGTCAAGATGGCCATCAGTGGACTCTCTTTTTTCAGAATGGCAAAGTAAA

GGTTTTTCAGGGAAATCAAGACTCCTTCACACCTGTGGTGAACTCTCTAGACCCACCGTTACTGACTCGC

TACCTTCGAATTCACCCCCAGAGTTGGGTGCACCAGATTGCCCTGAGGATGGAGGTTCTGGGCTGCGAGG

CACAGGACCTCTACTGAGGGTGGCCACTGCAGCACCTGCCACTGCCGTCACCTCTCCCTCCTCAGCTCCA

GGGCAGTGTCCCTCCCTGGCTTGCCTTCTACCTTTGTGCTAAATCCTAGCAGACACTGCCTTGAAGCCTC

CTGAATTAACTATCATCAGTCCTGCATTTCTTTGGTGGGGGGCCAGGAGGGTGCATCCAATTTAACTTAA

CTCTTACCTATTTTCTGCAGCTGCTCCCAGATTACTCCTTCCTTCCAATATAACTAGGCAAAAAGAAGTG

AGGAGAAACCTGCATGAAAGCATTCTTCCCTGAAAAGTTAGGCCTCTCAGAGTCACCACTTCCTCTGTTG

TAGAAAAACTATGTGATGAAACTTTGAAAAAGATATTTATGATGTTAACATTTCAGGTTAAGCCTCATAC

GTTTAAAATAAAACTCTCAGTTGTTTATTATCCTGATCAAGCATGGAACAAAGCATGTTTCAGGATCAGA

TCAATACAATCTTGGAGTCAAAAGGCAAATCATTTGGACAATCTGCAAAATGGAGAGAATACAATAACTA

CTACAGTAAAGTCTGTTTCTGCTTCCTTACACATAGATATAATTATGTTATTTAGTCATTATGAGGGGCA

CATTCTTATCTCCAAAACTAGCATTCTTAAACTGAGAATTATAGATGGGGTTCAAGAATCCCTAAGTCCC

CTGAAATTATATAAGGCATTCTGTATAAATGCAAATGTGCATTTTTCTGACGAGTGTCCATAGATATAAA

GCCATTTGGTCTTAATTCTGACCAATAAAAAAATAAGTCAGGAGGATGCAATTGTTGAAAGCTTTGAAAT

AAAATAACAATGTCTTCTTGAAATTTGTGATGGCCAAGAAAGAAAATGATGATGACATTAGGCTTCTAAA

GGACATACATTTAATATTTCTGTGGAAATATGAGGAAAATCCATGGTTATCTGAGATAGGAGATACAAAC

TTTGTAATTCTAATAATGCACTCAGTTTACTCTCTCCCTCTACTAATTTCCTGCTGAAAATAACACAACA

AAAATGTAACAGGGGAAATTATATACCGTGACTGAAAACTAGAGTCCTACTTACATAGTTGAAATATCAA

GGAGGTCAGAAGAAAATTGGACTGGTGAAAACAGAAAAAACACTCCAGTCTGCCATATCACCACACAATA

GGATCCCCCTTCTTGCCCTCCACCCCCATAAGATTGTGAAGGGTTTACTGCTCCTTCCATCTGCCTGACC

CCTTCACTATGACTACACAGAATCTCCTGATAGTAAAGGGGGCTGGAGGCAAGGATAAGTTATAGAGCAG

TTGGAGGAAGCATCCAAAGATTGCAACCCAGGGCAAATGGAAAACAGGAGATCCTAATATGAAAGAAAAA

TGGATCCCAATCTGAGAAAAGGCAAAAGAATGGCTACTTTTTTCTATGCTGGAGTATTTTCTAATAATCC

TGCTTGACCCTTATCTGACCTCTTTGGAAACTATAACATAGCTGTCACAGTATAGTCACAATCCACAAAT

GATGCAGGTGCAAATGGTTTATAGCCCTGTGAAGTTCTTAAAGTTTAGAGGCTAACTTACAGAAATGAAT

AAGTTGTTTTGTTTTATAGCCCGGTAGAGGAGTTAACCCCAAAGGTGATATGGTTTTATTTCCTGTTATG

TTTAACTTGATAATCTTATTTTGGCATTCTTTTCCCATTGACTATATACATCTCTATTTCTCAAATGTTC

ATGGAACTAGCTCTTTTATTTTCCTGCTGGTTTCTTCAGTAATGAGTTAAATAAAACATTGACACATACA

AACAAAAAAAAAAAAAAA

7. Motif

Pfam (4 motifs)

Pfam	Position(Independent E-value)	Description
F5_F8_type_C	2055..2185(4.3e-25) 2208..2342(1.7e-28)	PF00754, F5/8 type C domain
Cu-oxidase_3	90..197(0.00027) 454..572(9.4e-05)	PF07732, Multicopper oxidase
Cu-oxidase_2	680..727(0.035) 1918..2037(3.1e-08)	PF07731, Multicopper oxidase
F5_F8_type_C_2	2080..2169(0.0099) 2236..2297(0.00045)	PF22633, NedA-like, galactose-binding domain

8. Evolutionary Relationship

Evolutionary analysis by Maximum Likelihood method

The evolutionary history was inferred by using the Maximum Likelihood method and JTT matrix-based model [1]. The tree with the highest log likelihood (-38717.44) is shown. Initial tree(s) for the heuristic search were obtained automatically by applying Neighbor-Join and BioNJ algorithms to a matrix of pairwise distances estimated using a JTT model, and then selecting the topology with superior log likelihood value. The proportion of sites where at least 1 unambiguous base is present in at least 1 sequence for each descendent clade is shown next to each internal node in the tree. This analysis involved 100 amino acid sequences. There were a total of 2605 positions in the final dataset.

9. SNP

Nil

10. Active Site

Nil

11. Primary Sequence Analysis

Number of amino acids

2351

Molecular weight

267009.38

Theoretical pI

6.95

Amino acid composition

Ala (A) 110 4.7%

Arg (R) 104 4.4%

Asn (N) 125 5.3%

Asp (D) 121 5.1%

Cys (C) 26 1.1%

Gln (Q) 110 4.7%

Glu (E) 148 6.3%

Gly (G) 129 5.5%

His (H) 75 3.2%

Ile (I) 110 4.7%

Leu (L) 222 9.4%

Lys (K) 158 6.7%

Met (M) 61 2.6%

Phe (F) 109 4.6%

Pro (P) 128 5.4%

Ser (S) 219 9.3%

Thr (T) 155 6.6%

Trp (W) 37 1.6%

Tyr (Y) 79 3.4%

Val (V) 125 5.3%

Pyl (O) 0 0.0%

Sec (U) 0 0.0%

(B) 0 0.0%

(Z) 0 0.0%

(X) 0 0.0%

Total number of negatively charged residues (Asp + Glu)

269

Total number of positively charged residues (Arg + Lys)

262

Formula

C11900H18473N3243O3578S87

Total number of atoms()

37281

Instability index(II)

43.90

Stability

unstable

Aliphatic index(AI)

75.17

GRAVY

-0.517

12. Secondary structure analysis

Alpha helix (Hh) : 405 is 17.23%

310 helix (Gg) : 0 is 0.00%

Pi helix (Ii) : 0 is 0.00%

Beta bridge (Bb) : 0 is 0.00%

Extended strand (Ee) : 341 is 14.50%

Beta turn (Tt) : 0 is 0.00%

Bend region (Ss) : 0 is 0.00%

Random coil (Cc) : 1605 is 68.27%

Ambiguous states (?) : 0 is 0.00%

Other states : 0 is 0.00%

Secondary Structure Prediction

Amino Acid Type

13. Enzymes

Name of enzyme	No. of cleavages
Arg-C proteinase	104
Asp-N endopeptidase	121
Asp-N endopeptidase + N-terminal Glu	269
BNPS-Skatole	37
CNBr	61
Chymotrypsin-high specificity (C-term to [FYW], not before P)	213
Chymotrypsin-low specificity (C-term to [FYWML], not before P)	542
Clostripain	104
Enterokinase	1
Formic acid	121
Glutamyl endopeptidase	148
Iodosobenzoic acid	37
Hydroxylamine	7
LysC	158
LysN	158
NTCB (2-nitro-5-thiocyanobenzoic acid)	26
Pepsin (pH1.3)	427
Pepsin (pH>2)	581
Proline-endopeptidase	16
Proteinase K	1095
Staphylococcal peptidase I	135
Thermolysin	618
Tobacco etch virus protease	1
Trypsin	250

14. Epitope

Rank	Start position	Sequence	Score	Prediction
1	1062	TPLIHDRMLMDKNATA	0.96	Epitope
2	923	LGPPSMPVHYDSQLDT	0.94	Epitope
2	782	ENDIEKTDPWFAHRTP	0.94	Epitope
2	401	WVHYIAAEEEDWDYAP	0.94	Epitope
3	788	TDPWFAHRTPMPKIQN	0.93	Epitope
4	726	KVSSCDKNTGDYYEDS	0.92	Epitope
5	932	YDSQLDTTLFGKKSSP	0.91	Epitope
5	534	VTVEDGPTKSDPRCLT	0.91	Epitope
6	861	HHSGDMVFTPESGLQL	0.90	Epitope
6	632	IMHSINGYVFDSLQLS	0.90	Epitope
6	438	IGRKYKKVRFMAYTDE	0.90	Epitope
6	233	NSLMQDRDAASARAWP	0.90	Epitope
7	92	GPTIQAEVYDTVVITL	0.89	Epitope
7	704	PGLWILGCHNSDFRNR	0.89	Epitope
7	464	ESGILGPLLYGEVGDT	0.89	Epitope
7	274	WHVIGMGTTPEVHSIF	0.89	Epitope
7	154	TYVWQVLKENGPMASD	0.89	Epitope
8	832	YETFSDDPSPGAIDSN	0.88	Epitope

15. Protein-Protein Interaction

No of Nodes	11
No of Edges	38
Avg node degree	6.91
avg. local clustering coefficient	0.887
expected number of e, dges	11
p-value	3.9e-10
Protein – Protein Interaction network

16. MRNA

RNA Base Pairing Probability Plot